推荐 5.5
Conf: 50%
本文研究了大语言模型(LLM)在解码前中间激活层中拒绝行为(refusal)的可预测性。作者通过在每个Transformer块的残差流激活上训练线性探针(linear probes),发现拒绝行为在最终层之前即可被线性解码,表明安全相关行为在输出生成前已编码于中间激活中。为了测试该信号的可操作性,他们提出了Mechanistic AutoDAN,一种探针引导的AutoDAN变体,在遗传提示搜索循环中用部分前向传播和基于探针的评分替代完整模型适应度评估。在多个模型上的评估显示,该方法在攻击成功率上与原始AutoDAN相当,同时将每次迭代搜索时间减少高达72%,且探针引导的提示在多种配置下匹配或超越AutoDAN的跨模型迁移性。进一步发现,探针引导的有效性随模型规模增大而提升。结果表明,拒绝行为不仅在输出层可观察,而且作为结构化、可操作的信号编码在LLM的中间激活中。本文适合对LLM安全、对抗攻击及可解释性研究感兴趣的读者。
💡 推荐理由: 揭示了LLM拒绝行为在中间层即可被检测,从而可能被用于高效生成绕过安全的对抗提示,对LLM安全部署构成潜在威胁。
🎯 建议动作: 研究跟进,评估自身LLM部署是否易受此类中间层信号攻击,并考虑加强中间层监控或防御。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)