👥 作者: Wenhao Lan, Shan Li, Xinhua Lai, Meiqi Wu, Junbin Yang, Haihua Shen, Yijun Yang
该论文研究了语言模型在安全对齐过程中,拒绝有害请求与回答良性请求之间的耦合关系。现有评估通常只关注模型的最终拒绝表现,但未能揭示模型是否真正学会了识别有害性、激活拒绝策略,还是仅将两者简单耦合。为此,作者提出了一种“双安全几何”协议,通过测量有害性载体(harmfulness carriers)、拒绝载体(refusal carriers)及其耦合程度,来深入分析安全微调的内部动态。实验基于Mistral-7B-v0.1模型,对比了标准监督微调(SFT)和鲁棒对抗微调(R2D2)两种训练轨迹,并使用了多个对齐锚点进行验证。主要发现包括:(1)对齐锚点验证了协议的有效性:拒绝侧的干预比仅有害性干预更能重新打开攻击成功,且有害性与拒绝载体近乎正交;(2)在R2D2轨迹中,早期阶段呈现高耦合状态,此时模型具有强固定源鲁棒性和饱和安全提示拒绝能力,但良性效用严重下降;后期阶段耦合降低,部分恢复良性效用,但同时攻击成功率重新上升;(3)SFT也达到了低耦合状态,但其鲁棒性显著弱于R2D2,说明低耦合本身并不能保证安全性。进一步的跨锚点诊断和稀疏GCG/AutoDAN迁移实验表明,在R2D2场景下,有害性-拒绝耦合(H/R coupling)是信息量丰富的指标,而SFT的迁移更适合用漂移或行为状态度量来解释。因果扫描支持固定协议的敏感性,但未能独立建立有害性与拒绝的通路。这些结果将H/R耦合定位为对抗微调下安全几何动态的操作性诊断工具,为后续研究如何评估和提升模型鲁棒性提供了新视角。
💡 推荐理由: 揭示了对抗微调下模型安全鲁棒性变化的内部机制,帮助安全从业者评估微调后的模型是否真正学到了拒绝有害请求,而非仅暂时耦合,对LLM安全对齐评估具有指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bohdan Turbal, Blossom Metevier, Max Springer, Aleksandra Korolova
本文提出了一种名为Greedy Coordinate Diffusion (GCD)的新型对抗攻击框架,用于攻击经过安全对齐的大型语言模型(LLM)。现有攻击方法存在两类问题:基于优化的攻击(如GCG)生成高困惑度、不连贯的后缀,容易被基于困惑度或防护模型的过滤器检测;而保持语义连贯的攻击往往改变查询的语义意图,导致模型响应偏离攻击者的原始目标。GCD利用离散扩散语言模型的生成先验来引导对抗后缀的搜索,在保持低困惑度和高语义一致性的同时实现高效攻击。该方法无需直接梯度访问,可在灰盒设置下运行。实验表明,GCD在攻击成功率(ASR)上达到最高,同时在响应质量得分上具有竞争力,且构造的对抗提示被基于困惑度和防护模型的过滤器检测到的比率低于其他方法。该工作揭示了安全对齐LLM面临的语义连贯对抗攻击风险,为防御研究提供了新的评估基准。
💡 推荐理由: 该工作展示了现有对抗攻击的检测机制可能被更隐蔽的攻击绕过,强调了需要开发对低困惑度、语义连贯攻击更鲁棒的防御手段。
🎯 建议动作: 研究跟进,评估内部LLM部署对此类攻击的脆弱性,并探索针对性防御。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu
本文研究了大型语言模型(LLM)安全对齐的脆弱性,提出其根本原因在于自回归一致性——即自回归模型在预测下一个token时倾向于保持并延续当前生成轨迹的特性。作者通过分析安全对齐微调的学习动态,发现对齐更新主要集中在输出序列的前几个token上,导致安全对齐呈现“浅层”现象:模型仅在早期响应中拒绝有害请求,而后续生成可能偏离安全轨迹。这一机制也预测了一类更广泛的攻击:攻击者可以在输出轨迹的任意位置诱导一个有害的“连续状态”(harmful continuation state),从而劫持生成过程。作为具体示例,本文提出了随机插入攻击(random insertion attack),该方法在原本安全的拒绝回复中插入一个简短的有害片段(例如几个有害词),利用自回归一致性使模型延续该有害分支,即使之前已有大量拒绝前缀也能成功绕过安全对齐。实验表明,即使插入片段很短,也能使模型产生有害输出,凸显了自回归一致性作为更广泛失败机制的可能性。基于以上发现,作者提出对抗性安全对齐(adversarial safety alignment)框架,通过考虑最坏情况下的有害连续状态来训练模型,并实例化为随机最坏插入训练(random worst-insertion training)。总体而言,本文揭示了自回归一致性在安全对齐和攻击设计中的核心地位,为理解LLM安全脆弱性提供了新的理论视角,并为防御策略改进指明了方向。
💡 推荐理由: 本文首次从自回归一致性的动力学角度解释了LLM安全对齐浅层化的根本原因,并据此预测并验证了一种新型攻击(随机插入攻击),同时提出了对抗性安全对齐的防御框架。对安全从业者而言,理解这一机制有助于设计更鲁棒的对齐方法和评估现有防御的局限性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu
该论文针对开放世界AI代理(如OpenClaw)在跨环境执行时引入的新型安全风险,提出了一种轻量级、可扩展的代理安全对齐框架AgentDoG 1.5。研究背景指出,现有前沿AI模型大幅降低了攻击门槛,而当前的对齐框架不足以应对真实部署中的威胁。方法上,作者首先更新了代理安全分类法,以涵盖来自Codex和OpenClaw执行场景的 emergent 风险;随后构建了一个受分类法引导的数据引擎,并采用影响函数净化技术,仅使用约1k个样本训练了四个轻量级变体(参数量从0.8B到8B),其性能可与领先的闭源模型(如GPT-5.4)相媲美。基于AgentDoG 1.5,论文进一步搭建了高效的监督微调(SFT)和强化学习(RL)训练环境,将Docker级环境的部署开销降低两个数量级。最终,AgentDoG 1.5被部署为无需额外训练的在线护栏,用于实时安全审核。大量实验结果表明,AgentDoG 1.5在多样和复杂的交互式代理场景中达到了最先进水平。所有模型和数据集均已开源。该工作为AI代理的安全对齐提供了一种资源友好型方案,尤其适合资源受限的团队快速集成安全能力。
💡 推荐理由: 随着AI代理在开放环境中的广泛应用,其安全风险日益凸显。本文提出的轻量级对齐框架仅需少量样本即可达到闭源模型性能,同时大幅降低部署成本,为实际代理系统提供了可落地的安全防护方案。
🎯 建议动作: 研究跟进,评估框架在自身代理场景中的适用性
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu
本文发现大型语言模型(LLM)的安全对齐机制存在固有脆弱性:模型仅依赖少量稀疏分布的注意力头进行安全监控,导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界,并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化,无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上,Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%,显著优于现有方法。该工作揭示了LLM安全机制的盲区,为红队测试提供了新方法论。
💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头,解释了现有越狱攻击的成功原因,为防御者理解攻击根本原因和改进安全机制提供重要参考。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao
本文聚焦于大型语言模型(LLM)安全对齐在面对有害微调(Harmful Fine-tuning, HFT)攻击时的脆弱性问题。研究表明,现有的防御方法(如对参数、梯度或内部表示施加约束)在持续性HFT攻击下容易被绕过,其根本原因在于高维参数空间固有的冗余性:攻击者能够利用与防御约束正交的优化轨迹,在表面上遵循安全限制的同时,暗中恢复有害能力。为解决这一缺陷,作者提出了一种名为安全瓶颈正则化(Safety Bottleneck Regularization, SBR)的新方法。SBR将防御重心从冗余的参数空间转移到模型的解嵌入层(unembedding layer),该层被视为几何瓶颈。通过对齐有害查询的最终隐藏状态与安全对齐模型的最终隐藏状态——即仅使用一个“安全锚点”(safety anchor)——SBR使得模型即使在持续HFT攻击下仍能维持安全响应。大量实验表明,SBR在仅使用单个安全锚点的条件下,即可将有害分数(Harmful Score)降至10以下,同时在良性下游任务上保持具有竞争力的性能。该方法为LLM安全对齐提供了新的几何视角,显著增强了模型对有害微调的鲁棒性。
💡 推荐理由: LLM的安全对齐是部署前的关键步骤,但有害微调攻击可轻易破坏安全性。本文揭示现有防御失效的根本原因,并提出SBR这一轻量级、有效的防御方法,为安全工程师提供了可直接评估的加固方案。
🎯 建议动作: 研究跟进:在内部LLM安全评估中复现并验证SBR的有效性,考虑将其纳入微调流程的防御组件。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Stjepan Picek, Saraga Sakthidharan
随着开源大语言模型(LLM)的普及,通过公开分发低秩适应(LoRA)模块来定制模型能力已成为常见做法。然而,集成第三方 LoRA 模块会导致基础模型的安全对齐被灾难性遗忘,即模型失去了原有的安全护栏。传统方法通过安全数据微调来恢复对齐,但这会严重破坏适配器原本提供的专业领域知识。为解决这一零资源挑战,本文提出了 Neural Weight Translation (NeWTral) 框架。NeWTral 是一个预训练的非线性翻译模块,它直接在不安全的、特定领域的适配器参数空间与安全对齐流形之间建立映射,同时严格保持适配器的核心专业知识。该框架采用自适应混合专家(MoE)路由策略,融合高保真翻译专家和激进对齐专家,在参数空间中完成翻译。实验在四个架构家族(Llama、Mistral、Qwen、Gemma)上、规模达 72B 参数、涵盖八个科学和专业领域进行。结果表明,MoE 变体将平均攻击成功率(ASR)从 70%(不安全专家)大幅降至 13%,同时保持了 90% 的平均知识保真度。NeWTral 模块设计为可独立下载的资产,使从业者无需访问原始训练数据或进行硬件密集的重新训练,即可即时恢复安全对齐。
💡 推荐理由: 该研究为使用第三方 LoRA 模块的 LLM 部署提供了即插即用的安全恢复方案,解决了安全与领域知识之间的权衡问题,对构建可信 Agent 系统至关重要。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)