本文研究自主安全智能体(Autonomous Security Agents)在执行漏洞分析任务时,不同安全对齐(safety alignment)程度的语言模型(包括原始对齐模型与未经审查或“消融”模型)的行为差异。传统单轮拒绝基准无法评估此类智能体,因为安全智能体需要检查仓库、调用工具并在授权沙箱内生成漏洞证据。为此,作者构建了一个基于轨迹的基准测试,包含30个本地漏洞分析任务,配有固定工具、确定性成功判定、编辑规则和基础事实核查。他们比较了四组模型及其消融变体:Gemma 4 31B、Gemma 4 26B A4B、Qwen2.5-Coder 7B和Llama 3.1 8B。实验生成了1500条安全智能体轨迹和800条非安全控制轨迹。结果表明:Gemma系列中,限制较少的变体在安全任务上获得大幅提升(31B: 14.0% vs 0.7%成功率;26B: 10.7% vs 0.0%),平均基础事实得分更高(分别3.91 vs 3.27和4.12 vs 1.64,满分5),且拒绝率、抑制动作率和不安全动作率均为0%。但控制实验及非Gemma系列排除了纯粹的“安全专用”或“通用”降低限制效应:Gemma的差距在普通编程任务上也存在;Qwen2.5-Coder的限制较少变体成功率反而更低(2.0% vs 5.3%);消融后的Llama变体无法遵循工具协议。此外,所有模型在严格的漏洞触发证明和补丁验证任务上均未成功。这些结果表明,自主安全智能体中的安全对齐效应应在系统层面衡量,区分拒绝、不安全动作、工具可靠性和基础事实证据,而不应仅将拒绝率作为安全信号。
💡 推荐理由: 安全从业者需要理解,仅仅依赖语言模型的拒绝率不足以评估自主安全智能体的安全性;必须从系统层面测量拒绝、不安全行为、工具可靠性和证据基础真实度,这对设计安全自动化工具至关重要。
🎯 建议动作: 研究跟进