#safety-alignment

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Isaac David, Arthur Gervais

本文研究自主安全智能体(Autonomous Security Agents)在执行漏洞分析任务时,不同安全对齐(safety alignment)程度的语言模型(包括原始对齐模型与未经审查或“消融”模型)的行为差异。传统单轮拒绝基准无法评估此类智能体,因为安全智能体需要检查仓库、调用工具并在授权沙箱内生成漏洞证据。为此,作者构建了一个基于轨迹的基准测试,包含30个本地漏洞分析任务,配有固定工具、确定性成功判定、编辑规则和基础事实核查。他们比较了四组模型及其消融变体:Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B。实验生成了1500条安全智能体轨迹和800条非安全控制轨迹。结果表明:Gemma系列中,限制较少的变体在安全任务上获得大幅提升(31B: 14.0% vs 0.7%成功率;26B: 10.7% vs 0.0%),平均基础事实得分更高(分别3.91 vs 3.27和4.12 vs 1.64,满分5),且拒绝率、抑制动作率和不安全动作率均为0%。但控制实验及非Gemma系列排除了纯粹的“安全专用”或“通用”降低限制效应:Gemma的差距在普通编程任务上也存在;Qwen2.5-Coder的限制较少变体成功率反而更低(2.0% vs 5.3%);消融后的Llama变体无法遵循工具协议。此外,所有模型在严格的漏洞触发证明和补丁验证任务上均未成功。这些结果表明,自主安全智能体中的安全对齐效应应在系统层面衡量,区分拒绝、不安全动作、工具可靠性和基础事实证据,而不应仅将拒绝率作为安全信号。

💡 推荐理由: 安全从业者需要理解,仅仅依赖语言模型的拒绝率不足以评估自主安全智能体的安全性;必须从系统层面测量拒绝、不安全行为、工具可靠性和证据基础真实度,这对设计安全自动化工具至关重要。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型(LLM)的安全对齐机制存在固有脆弱性:模型仅依赖少量稀疏分布的注意力头进行安全监控,导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界,并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化,无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上,Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%,显著优于现有方法。该工作揭示了LLM安全机制的盲区,为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头,解释了现有越狱攻击的成功原因,为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao

本文聚焦于大型语言模型(LLM)安全对齐在面对有害微调(Harmful Fine-tuning, HFT)攻击时的脆弱性问题。研究表明,现有的防御方法(如对参数、梯度或内部表示施加约束)在持续性HFT攻击下容易被绕过,其根本原因在于高维参数空间固有的冗余性:攻击者能够利用与防御约束正交的优化轨迹,在表面上遵循安全限制的同时,暗中恢复有害能力。为解决这一缺陷,作者提出了一种名为安全瓶颈正则化(Safety Bottleneck Regularization, SBR)的新方法。SBR将防御重心从冗余的参数空间转移到模型的解嵌入层(unembedding layer),该层被视为几何瓶颈。通过对齐有害查询的最终隐藏状态与安全对齐模型的最终隐藏状态——即仅使用一个“安全锚点”(safety anchor)——SBR使得模型即使在持续HFT攻击下仍能维持安全响应。大量实验表明,SBR在仅使用单个安全锚点的条件下,即可将有害分数(Harmful Score)降至10以下,同时在良性下游任务上保持具有竞争力的性能。该方法为LLM安全对齐提供了新的几何视角,显著增强了模型对有害微调的鲁棒性。

💡 推荐理由: LLM的安全对齐是部署前的关键步骤,但有害微调攻击可轻易破坏安全性。本文揭示现有防御失效的根本原因,并提出SBR这一轻量级、有效的防御方法,为安全工程师提供了可直接评估的加固方案。

🎯 建议动作: 研究跟进:在内部LLM安全评估中复现并验证SBR的有效性,考虑将其纳入微调流程的防御组件。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Stjepan Picek, Saraga Sakthidharan

随着开源大语言模型(LLM)的普及,通过公开分发低秩适应(LoRA)模块来定制模型能力已成为常见做法。然而,集成第三方 LoRA 模块会导致基础模型的安全对齐被灾难性遗忘,即模型失去了原有的安全护栏。传统方法通过安全数据微调来恢复对齐,但这会严重破坏适配器原本提供的专业领域知识。为解决这一零资源挑战,本文提出了 Neural Weight Translation (NeWTral) 框架。NeWTral 是一个预训练的非线性翻译模块,它直接在不安全的、特定领域的适配器参数空间与安全对齐流形之间建立映射,同时严格保持适配器的核心专业知识。该框架采用自适应混合专家(MoE)路由策略,融合高保真翻译专家和激进对齐专家,在参数空间中完成翻译。实验在四个架构家族(Llama、Mistral、Qwen、Gemma)上、规模达 72B 参数、涵盖八个科学和专业领域进行。结果表明,MoE 变体将平均攻击成功率(ASR)从 70%(不安全专家)大幅降至 13%,同时保持了 90% 的平均知识保真度。NeWTral 模块设计为可独立下载的资产,使从业者无需访问原始训练数据或进行硬件密集的重新训练,即可即时恢复安全对齐。

💡 推荐理由: 该研究为使用第三方 LoRA 模块的 LLM 部署提供了即插即用的安全恢复方案,解决了安全与领域知识之间的权衡问题,对构建可信 Agent 系统至关重要。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)