#safety-alignment 主题 - Cyber Security Daily Radar

👥 作者: Shivam Ratnakar, Kartikeya Vats

该论文研究了大型语言模型（LLM）中安全拒绝机制的几何特性。作者提出了一种名为“对比对数几率引导”（CLS）的零优化框架，通过对比安全系统提示和不受限系统提示下的隐藏状态，提取出“拒绝方向”。与以往干预内部激活的表示工程方法不同，CLS直接作用于输出分布，作为对齐脆弱性的诊断探针。结合前缀注入以绕过初始拒绝反射，该方法可触发安全护栏的相变式崩溃。在7个模型系列上的实验表明，安全实现在架构上具有决定性：Llama-3.1等模型呈现“晚期决策”拓扑，容易被CLS绕过（攻击成功率95%，耗时约1秒）；而Qwen-2.5等模型则呈现“早期分歧”，在计算中途整合安全机制。与已有的激活层引导方法相比，CLS在Llama 2上实现了73%的攻击成功率（对比22.6%），在Qwen 7B上实现了91%（对比79.2%），表明对数几率层面的干预能暴露出隐藏状态方法低估的对齐漏洞。此外，该线性特性还支持双向控制：反向引导向量可“硬化”模型以抵御越狱攻击，无需重新训练。研究发现当前对齐技术创建了一个可操纵的“安全轴”，既是关键漏洞也是精确定义防御基元。

💡 推荐理由: 揭示了安全对齐LLM中拒绝机制存在可操纵的线性结构，证明当前对齐技术脆弱且可被高效利用，同时提供了利用同一线性特性进行防御的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Wenhao Lan, Shan Li, Xinhua Lai, Meiqi Wu, Junbin Yang, Haihua Shen, Yijun Yang

该论文研究了语言模型在安全对齐过程中，拒绝有害请求与回答良性请求之间的耦合关系。现有评估通常只关注模型的最终拒绝表现，但未能揭示模型是否真正学会了识别有害性、激活拒绝策略，还是仅将两者简单耦合。为此，作者提出了一种“双安全几何”协议，通过测量有害性载体（harmfulness carriers）、拒绝载体（refusal carriers）及其耦合程度，来深入分析安全微调的内部动态。实验基于Mistral-7B-v0.1模型，对比了标准监督微调（SFT）和鲁棒对抗微调（R2D2）两种训练轨迹，并使用了多个对齐锚点进行验证。主要发现包括：（1）对齐锚点验证了协议的有效性：拒绝侧的干预比仅有害性干预更能重新打开攻击成功，且有害性与拒绝载体近乎正交；（2）在R2D2轨迹中，早期阶段呈现高耦合状态，此时模型具有强固定源鲁棒性和饱和安全提示拒绝能力，但良性效用严重下降；后期阶段耦合降低，部分恢复良性效用，但同时攻击成功率重新上升；（3）SFT也达到了低耦合状态，但其鲁棒性显著弱于R2D2，说明低耦合本身并不能保证安全性。进一步的跨锚点诊断和稀疏GCG/AutoDAN迁移实验表明，在R2D2场景下，有害性-拒绝耦合（H/R coupling）是信息量丰富的指标，而SFT的迁移更适合用漂移或行为状态度量来解释。因果扫描支持固定协议的敏感性，但未能独立建立有害性与拒绝的通路。这些结果将H/R耦合定位为对抗微调下安全几何动态的操作性诊断工具，为后续研究如何评估和提升模型鲁棒性提供了新视角。

💡 推荐理由: 揭示了对抗微调下模型安全鲁棒性变化的内部机制，帮助安全从业者评估微调后的模型是否真正学到了拒绝有害请求，而非仅暂时耦合，对LLM安全对齐评估具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bohdan Turbal, Blossom Metevier, Max Springer, Aleksandra Korolova

本文提出了一种名为Greedy Coordinate Diffusion (GCD)的新型对抗攻击框架，用于攻击经过安全对齐的大型语言模型（LLM）。现有攻击方法存在两类问题：基于优化的攻击（如GCG）生成高困惑度、不连贯的后缀，容易被基于困惑度或防护模型的过滤器检测；而保持语义连贯的攻击往往改变查询的语义意图，导致模型响应偏离攻击者的原始目标。GCD利用离散扩散语言模型的生成先验来引导对抗后缀的搜索，在保持低困惑度和高语义一致性的同时实现高效攻击。该方法无需直接梯度访问，可在灰盒设置下运行。实验表明，GCD在攻击成功率（ASR）上达到最高，同时在响应质量得分上具有竞争力，且构造的对抗提示被基于困惑度和防护模型的过滤器检测到的比率低于其他方法。该工作揭示了安全对齐LLM面临的语义连贯对抗攻击风险，为防御研究提供了新的评估基准。

💡 推荐理由: 该工作展示了现有对抗攻击的检测机制可能被更隐蔽的攻击绕过，强调了需要开发对低困惑度、语义连贯攻击更鲁棒的防御手段。

🎯 建议动作: 研究跟进，评估内部LLM部署对此类攻击的脆弱性，并探索针对性防御。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu

本文研究了大型语言模型（LLM）安全对齐的脆弱性，提出其根本原因在于自回归一致性——即自回归模型在预测下一个token时倾向于保持并延续当前生成轨迹的特性。作者通过分析安全对齐微调的学习动态，发现对齐更新主要集中在输出序列的前几个token上，导致安全对齐呈现“浅层”现象：模型仅在早期响应中拒绝有害请求，而后续生成可能偏离安全轨迹。这一机制也预测了一类更广泛的攻击：攻击者可以在输出轨迹的任意位置诱导一个有害的“连续状态”（harmful continuation state），从而劫持生成过程。作为具体示例，本文提出了随机插入攻击（random insertion attack），该方法在原本安全的拒绝回复中插入一个简短的有害片段（例如几个有害词），利用自回归一致性使模型延续该有害分支，即使之前已有大量拒绝前缀也能成功绕过安全对齐。实验表明，即使插入片段很短，也能使模型产生有害输出，凸显了自回归一致性作为更广泛失败机制的可能性。基于以上发现，作者提出对抗性安全对齐（adversarial safety alignment）框架，通过考虑最坏情况下的有害连续状态来训练模型，并实例化为随机最坏插入训练（random worst-insertion training）。总体而言，本文揭示了自回归一致性在安全对齐和攻击设计中的核心地位，为理解LLM安全脆弱性提供了新的理论视角，并为防御策略改进指明了方向。

💡 推荐理由: 本文首次从自回归一致性的动力学角度解释了LLM安全对齐浅层化的根本原因，并据此预测并验证了一种新型攻击（随机插入攻击），同时提出了对抗性安全对齐的防御框架。对安全从业者而言，理解这一机制有助于设计更鲁棒的对齐方法和评估现有防御的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Subhadip Mitra

本文研究了大型语言模型 (LLM) 在跨代际间的安全对齐是否单调提升。作者选取 Google 的 Gemma 系列四代模型（7B-31B），采用质量多样性进化算法（MAP-Elites）作为自动化红队探测工具，对模型进行对抗性攻击生成和评估。实验发现，Gemma 3 (12B) 的攻击成功率 (ASR) 高达 68.7% ± 5.7%，显著高于其前代 Gemma 2 (45.5% ± 7.2%) 和后继 Gemma 4 (33.9% ± 1.8%)，表明安全对齐并非单调提升，而是存在非单调波动。通过跨代重放演化攻击库，发现其他代攻击迁移到 Gemma 3 的成功率为 44-46%，但迁移到 Gemma 4 仅 14-18%，说明 Gemma 4 的安全增益具有泛化性。在特定漏洞类别上，版权和网络犯罪攻击在所有代中接近 100% 成功，但版权结果对评委模型敏感；虚假信息 ASR 从 Gemma 2 的 29% 跃升至 Gemma 3 的 99%，在 Gemma 4 中仍高达 77%，表明该回归未被完全修复。这些模式在静态基准中不可见，仅通过自适应、纵向探测揭示。所有实验使用 3 个随机种子和统一的自托管评委模型，代码和工件公开。

💡 推荐理由: 该研究揭示 LLM 安全对齐存在非单调回归，即新模型可能比旧模型更脆弱，这对模型更新和部署策略有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu

该论文针对开放世界AI代理（如OpenClaw）在跨环境执行时引入的新型安全风险，提出了一种轻量级、可扩展的代理安全对齐框架AgentDoG 1.5。研究背景指出，现有前沿AI模型大幅降低了攻击门槛，而当前的对齐框架不足以应对真实部署中的威胁。方法上，作者首先更新了代理安全分类法，以涵盖来自Codex和OpenClaw执行场景的 emergent 风险；随后构建了一个受分类法引导的数据引擎，并采用影响函数净化技术，仅使用约1k个样本训练了四个轻量级变体（参数量从0.8B到8B），其性能可与领先的闭源模型（如GPT-5.4）相媲美。基于AgentDoG 1.5，论文进一步搭建了高效的监督微调（SFT）和强化学习（RL）训练环境，将Docker级环境的部署开销降低两个数量级。最终，AgentDoG 1.5被部署为无需额外训练的在线护栏，用于实时安全审核。大量实验结果表明，AgentDoG 1.5在多样和复杂的交互式代理场景中达到了最先进水平。所有模型和数据集均已开源。该工作为AI代理的安全对齐提供了一种资源友好型方案，尤其适合资源受限的团队快速集成安全能力。

💡 推荐理由: 随着AI代理在开放环境中的广泛应用，其安全风险日益凸显。本文提出的轻量级对齐框架仅需少量样本即可达到闭源模型性能，同时大幅降低部署成本，为实际代理系统提供了可落地的安全防护方案。

🎯 建议动作: 研究跟进，评估框架在自身代理场景中的适用性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Isaac David, Arthur Gervais

该论文研究了安全对齐语言模型及其未审查或消融版本在作为自主安全代理运行时的行为差异。传统的单轮拒绝基准无法评估代理的实际情况，因为安全代理需要检查代码仓库、调用工具并在授权沙箱中生成漏洞证据。作者提出了一个基于追踪的基准测试，包含30个本地漏洞分析任务，使用固定工具、确定性成功谓词、编辑规则和基础检查，并比较了Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B四个标准模型与其未审查或消融衍生版本。实验生成了1500个安全代理追踪和800个非安全控制追踪。结果显示，Gemma对在安全任务上的未审查版本有较大增益：31B版本成功率14.0%对比0.7%，26B版本10.7%对比0.0%，且基础分数更高，拒绝率、抑制行动率和危险行动率为0%。然而，控制组和非Gemma对排除了纯安全特定或普遍未审查效应：Gemma差距在普通编码任务中也出现，Qwen2.5-Coder未审查衍生版本成功率反而降低（2.0%对比5.3%），消融的Llama衍生版本无法遵循工具协议。所有模型在硬性触发证明和补丁验证任务上均未成功。这表明自主安全代理中的安全对齐效果应在系统层面衡量，区分拒绝、危险行动、工具可靠性和证据基础，而非将拒绝率作为安全信号。

💡 推荐理由: 该研究揭示了安全对齐在自主安全代理中的复杂性，反驳了仅依赖拒绝率评估安全性的做法，为蓝队评估LLM驱动的安全工具提供了更精确的系统级测量方法。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型（LLM）的安全对齐机制存在固有脆弱性：模型仅依赖少量稀疏分布的注意力头进行安全监控，导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界，并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化，无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上，Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%，显著优于现有方法。该工作揭示了LLM安全机制的盲区，为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头，解释了现有越狱攻击的成功原因，为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao

本文聚焦于大型语言模型（LLM）安全对齐在面对有害微调（Harmful Fine-tuning, HFT）攻击时的脆弱性问题。研究表明，现有的防御方法（如对参数、梯度或内部表示施加约束）在持续性HFT攻击下容易被绕过，其根本原因在于高维参数空间固有的冗余性：攻击者能够利用与防御约束正交的优化轨迹，在表面上遵循安全限制的同时，暗中恢复有害能力。为解决这一缺陷，作者提出了一种名为安全瓶颈正则化（Safety Bottleneck Regularization, SBR）的新方法。SBR将防御重心从冗余的参数空间转移到模型的解嵌入层（unembedding layer），该层被视为几何瓶颈。通过对齐有害查询的最终隐藏状态与安全对齐模型的最终隐藏状态——即仅使用一个“安全锚点”（safety anchor）——SBR使得模型即使在持续HFT攻击下仍能维持安全响应。大量实验表明，SBR在仅使用单个安全锚点的条件下，即可将有害分数（Harmful Score）降至10以下，同时在良性下游任务上保持具有竞争力的性能。该方法为LLM安全对齐提供了新的几何视角，显著增强了模型对有害微调的鲁棒性。

💡 推荐理由: LLM的安全对齐是部署前的关键步骤，但有害微调攻击可轻易破坏安全性。本文揭示现有防御失效的根本原因，并提出SBR这一轻量级、有效的防御方法，为安全工程师提供了可直接评估的加固方案。

🎯 建议动作: 研究跟进：在内部LLM安全评估中复现并验证SBR的有效性，考虑将其纳入微调流程的防御组件。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Stjepan Picek, Saraga Sakthidharan

随着开源大语言模型（LLM）的普及，通过公开分发低秩适应（LoRA）模块来定制模型能力已成为常见做法。然而，集成第三方 LoRA 模块会导致基础模型的安全对齐被灾难性遗忘，即模型失去了原有的安全护栏。传统方法通过安全数据微调来恢复对齐，但这会严重破坏适配器原本提供的专业领域知识。为解决这一零资源挑战，本文提出了 Neural Weight Translation (NeWTral) 框架。NeWTral 是一个预训练的非线性翻译模块，它直接在不安全的、特定领域的适配器参数空间与安全对齐流形之间建立映射，同时严格保持适配器的核心专业知识。该框架采用自适应混合专家（MoE）路由策略，融合高保真翻译专家和激进对齐专家，在参数空间中完成翻译。实验在四个架构家族（Llama、Mistral、Qwen、Gemma）上、规模达 72B 参数、涵盖八个科学和专业领域进行。结果表明，MoE 变体将平均攻击成功率（ASR）从 70%（不安全专家）大幅降至 13%，同时保持了 90% 的平均知识保真度。NeWTral 模块设计为可独立下载的资产，使从业者无需访问原始训练数据或进行硬件密集的重新训练，即可即时恢复安全对齐。

💡 推荐理由: 该研究为使用第三方 LoRA 模块的 LLM 部署提供了即插即用的安全恢复方案，解决了安全与领域知识之间的权衡问题，对构建可信 Agent 系统至关重要。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#safety-alignment

The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs

From Refusal Geometry to Safety Geometry: Harmfulness--Refusal Coupling under Dynamic Adversarial Fine-Tuning

Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance

When Autoregressive Consistency Hurts Safety Alignment

Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Measuring Safety Alignment Effects in Autonomous Security Agents

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks

You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation