#neuron-level-attack

共收录 1 条相关安全情报。

← 返回所有主题
推荐 11.5
Conf: 50%
👥 作者: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Maximilian Thang, Stjepan Picek, Ahmad-Reza Sadeghi

该论文提出了 NeuroStrike,一种针对对齐大型语言模型(LLM)的新型攻击框架。作者发现,当前的安全对齐技术(如监督微调和基于人类反馈的强化学习)会在模型中引入稀疏的“安全神经元”,这些神经元负责检测和抑制有害输入。NeuroStrike 利用这一根本性漏洞,通过在前馈激活分析中识别这些安全神经元,并在推理过程中将其剪枝,从而禁用安全机制。在白盒设置中,该方法只需移除目标层中不到 0.6% 的神经元,即可在 20 多个开源 LLM 上达到平均 76.9% 的攻击成功率(ASR)。此外,NeuroStrike 还扩展到多模态 LLM,在 unsafe 图像输入上实现了 100% ASR。在黑盒设置中,作者提出了首个 LLM 分析攻击,利用安全神经元的可迁移性,在开源代理模型上训练对抗性提示生成器,然后部署到黑盒及专有模型上。实验表明,该黑盒攻击在 5 个黑盒模型(包括 Google Gemini 系列)上平均 ASR 为 63.7%。安全神经元在架构间有效迁移,使 11 个微调模型和 5 个蒸馏模型的 ASR 分别提升至 78.5% 和 77.7%。该工作揭示了当前对齐技术的脆弱性,并强调了安全神经元的可迁移性带来的广泛威胁。

💡 推荐理由: NeuroStrike 揭示了对齐 LLM 中安全神经元的可迁移性和脆弱性,表明仅依赖稀疏神经元的安全机制极易被绕过。该攻击泛化到多种模型和输入形式,对 LLM 的安全部署构成严重威胁,值得安全从业者高度关注。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)