计算机使用代理(Computer-use agents)将语言模型从文本生成扩展到与文件、终端、浏览器和外部工具的持续交互。这种范式转变带来了新的安全风险,因为恶意行为往往只有通过多步执行轨迹才能显现,而单步动作看似无害。现有安全检测方法依赖孤立提示或最终响应,难以捕捉这类隐蔽威胁。本文提出BraveGuard,一个自演化的防御框架,用于从开放世界威胁信号和真实代理轨迹中训练守卫模型。BraveGuard通过挖掘最新研究来源识别新兴风险与攻击模式,将其实例化为可执行的计算机使用任务,收集代理运行轨迹,并推导出轨迹级别的监督信号以训练守卫模型。当新威胁或验证失败出现时,该流水线可重复执行,形成自适应防御循环,而非静态的基准驱动训练过程。作者基于Qwen3-Guard和Llama-Guard等多种骨干模型实现了BraveGuard,并在轨迹级别的代理安全基准上评估。实验表明,BraveGuard在计算机使用轨迹上持续提升安全检测能力。在AgentHazard基准上,与现成守卫模型相比,平均守卫模型设置下的检测准确率从38.79%提升至82.38%。这些结果证明,基于开放世界威胁发现和真实代理执行的守卫监督能够超越固定分类法和合成提示级别数据,为应对不断演变的真实世界风险提供了可扩展的自适应防御路径。
💡 推荐理由: 计算机使用代理面临的多步执行安全风险难以被传统方法检测,BraveGuard通过自演化框架从开放世界威胁中学习轨迹级监督,显著提升了检测精度,为代理安全监控提供了实用且可扩展的防御新思路。
🎯 建议动作: 研究跟进