#autoregressive-consistency 主题 - Cyber Security Daily Radar

👥 作者: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu

本文研究了大型语言模型（LLM）安全对齐的脆弱性，提出其根本原因在于自回归一致性——即自回归模型在预测下一个token时倾向于保持并延续当前生成轨迹的特性。作者通过分析安全对齐微调的学习动态，发现对齐更新主要集中在输出序列的前几个token上，导致安全对齐呈现“浅层”现象：模型仅在早期响应中拒绝有害请求，而后续生成可能偏离安全轨迹。这一机制也预测了一类更广泛的攻击：攻击者可以在输出轨迹的任意位置诱导一个有害的“连续状态”（harmful continuation state），从而劫持生成过程。作为具体示例，本文提出了随机插入攻击（random insertion attack），该方法在原本安全的拒绝回复中插入一个简短的有害片段（例如几个有害词），利用自回归一致性使模型延续该有害分支，即使之前已有大量拒绝前缀也能成功绕过安全对齐。实验表明，即使插入片段很短，也能使模型产生有害输出，凸显了自回归一致性作为更广泛失败机制的可能性。基于以上发现，作者提出对抗性安全对齐（adversarial safety alignment）框架，通过考虑最坏情况下的有害连续状态来训练模型，并实例化为随机最坏插入训练（random worst-insertion training）。总体而言，本文揭示了自回归一致性在安全对齐和攻击设计中的核心地位，为理解LLM安全脆弱性提供了新的理论视角，并为防御策略改进指明了方向。

💡 推荐理由: 本文首次从自回归一致性的动力学角度解释了LLM安全对齐浅层化的根本原因，并据此预测并验证了一种新型攻击（随机插入攻击），同时提出了对抗性安全对齐的防御框架。对安全从业者而言，理解这一机制有助于设计更鲁棒的对齐方法和评估现有防御的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#autoregressive-consistency

When Autoregressive Consistency Hurts Safety Alignment