#mechanistic interpretability 主题 - Cyber Security Daily Radar

👥 作者: Alex Kwon

该论文对一种名为“Prefill Jailbreak”的越狱攻击进行了深入的机制研究。在这种攻击中，攻击者只需在提示开头添加一行预填充文本（例如“Sure, here is”），就能使经过安全对齐的大语言模型放弃拒绝回答有害请求的行为。论文首先通过线性探针实验发现，即使在模型被成功越狱的情况下，模型内部对“有害性”的表示（harm representation）依然保持完整：在那些本应被拒绝但实际却输出有害内容的提示上，线性探针从模型内部表示读取到的有害性分数依然很高（0.91-0.98），与拒绝状态下相当。这说明拒绝机制并非由模型深层对有害性的感知决定，而是一个发生在响应生成阶段的浅层计算。然后，通过剂量匹配的位置控制实验，论文将拒绝机制的失效定位到响应生成的前半部分：扰动早期一半的响应生成就是以破坏拒绝行为，而对后半部分的干预几乎无效。进一步，论文采用了三种因果探针方法（包括注意力掩码、表示方向干预和注意力抑制）确认了这一关键窗口。具体地，通过恢复早期响应中“有害性”方向的部分表示，可以部分重新激活拒绝行为；而注入模型在拒绝状态下的内部表示，则能逆转越狱效果（在留出测试集上达到74%的成功率）。此外，通过敲除早期响应部分对预填充token的注意力，而非其他等量注意力的位置，可以特异性破坏有害内容的继续生成。作为对比，在未经安全微调的基础模型上进行同样实验，发现同样的敲除操作同样会特异性破坏预填充后的有害内容生成（有害内容从64%降至25%，而对照组的64%保持不变）。这表明预填充token的强制作用本质上是通用的自回归条件概率（即模型倾向于延续输入前缀的分布），而非安全特定的抑制解除。因此，论文认为“拒绝恢复”是一种依赖于模型的回退机制，而主导的越狱机制是被动的（即模型自然地顺应预填充）。论文还发现存在一个微小的安全特定吸引子（logit-trace集中度0.24 vs 0.03），但未能完全分离其主动与被动成分。最终结论是：拒绝决策在表示空间中是可解码但分布式存储的，不存在一个单一的“拒绝神经元”或方向；拒绝机制跟踪的是有害性而非表面的“危险”词汇。这一研究的实际含义是：如果监控系统只读取提示端的表示，那么它天然就会对这类响应级攻击免疫，但这也意味着检测手段必须关注响应生成过程；整个机制是弥散的，但攻击的失败界面是局部的（集中在响应早期）。本文适合大模型安全研究人员、AI对齐技术开发者以及红蓝队成员阅读。

💡 推荐理由: 该研究揭示了对齐大语言模型拒绝机制的本质弱点：拒绝是响应阶段的浅层计算，攻击者只需操控模型生成的初始部分即可绕过。这种机理洞察对于设计更鲁棒的安全检测和防御策略至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#mechanistic interpretability

Breaking Refusal in the First Half: A Mechanistic Study of the Prefill Jailbreak