推荐 3.5
Conf: 50%
提示学习(Prompt Learning)作为一种新兴的机器学习范式,因其简单性和有效性而受到广泛关注。然而,其安全漏洞尚未得到充分探索。本文提出 BadBone,一种针对视觉提示学习中骨干模型(Backbone Model)的隐蔽且自适应的后门攻击方法。与以往攻击提示学习过程本身不同,BadBone 采用双层优化(Bi-level Optimization)技术,直接对预训练的骨干模型植入后门,使得任何采用该骨干进行提示学习的下游任务在微调后都会继承后门行为。攻击者可以在预训练阶段或通过微调接口注入后门,而无需控制提示学习过程。研究者在三个不同骨干模型(如 ViT、ResNet 等)和三个跨领域数据集上进行了大量实验,结果表明无论是目标攻击还是非目标攻击,后门模型都能在保持预训练和下游任务正常性能(Utility)的同时,实现高攻击成功率。更重要的是,作者评估了六种最先进的模型级防御机制(包括 Neural Cleanse、ABS、MNTD、NAD、CLP 和 D-BR),发现这些防御方法对 BadBone 几乎无效,无法有效检测或移除后门。这揭示了现有防御在应对针对骨干模型的后门攻击时的局限性。本文的工作首次系统性地探索了提示学习范式下针对骨干模型的后门攻击,其发现对视觉提示学习的安全性提出了新的挑战,适合关注 AI 安全、后门攻击与防御的研究人员阅读。
💡 推荐理由: 提示学习被广泛用于视觉任务,但存在被后门攻击的风险。BadBone 展示了攻击者可通过污染骨干模型,让下游采用提示学习的模型继承后门,且现有防御几乎无法检测。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)