#neuron-level-attack 主题 - Cyber Security Daily Radar

👥 作者: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Maximilian Thang, Stjepan Picek, Ahmad-Reza Sadeghi

该论文提出了 NeuroStrike，一种针对对齐大型语言模型（LLM）的新型攻击框架。作者发现，当前的安全对齐技术（如监督微调和基于人类反馈的强化学习）会在模型中引入稀疏的“安全神经元”，这些神经元负责检测和抑制有害输入。NeuroStrike 利用这一根本性漏洞，通过在前馈激活分析中识别这些安全神经元，并在推理过程中将其剪枝，从而禁用安全机制。在白盒设置中，该方法只需移除目标层中不到 0.6% 的神经元，即可在 20 多个开源 LLM 上达到平均 76.9% 的攻击成功率（ASR）。此外，NeuroStrike 还扩展到多模态 LLM，在 unsafe 图像输入上实现了 100% ASR。在黑盒设置中，作者提出了首个 LLM 分析攻击，利用安全神经元的可迁移性，在开源代理模型上训练对抗性提示生成器，然后部署到黑盒及专有模型上。实验表明，该黑盒攻击在 5 个黑盒模型（包括 Google Gemini 系列）上平均 ASR 为 63.7%。安全神经元在架构间有效迁移，使 11 个微调模型和 5 个蒸馏模型的 ASR 分别提升至 78.5% 和 77.7%。该工作揭示了当前对齐技术的脆弱性，并强调了安全神经元的可迁移性带来的广泛威胁。

💡 推荐理由: NeuroStrike 揭示了对齐 LLM 中安全神经元的可迁移性和脆弱性，表明仅依赖稀疏神经元的安全机制极易被绕过。该攻击泛化到多种模型和输入形式，对 LLM 的安全部署构成严重威胁，值得安全从业者高度关注。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#neuron-level-attack

NeuroStrike: Neuron-Level Attacks on Aligned LLMs.