#defense-framework

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Yunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang

计算机使用代理(Computer-use agents)将语言模型从文本生成扩展到与文件、终端、浏览器和外部工具的持续交互。这种范式转变带来了新的安全风险,因为恶意行为往往只有通过多步执行轨迹才能显现,而单步动作看似无害。现有安全检测方法依赖孤立提示或最终响应,难以捕捉这类隐蔽威胁。本文提出BraveGuard,一个自演化的防御框架,用于从开放世界威胁信号和真实代理轨迹中训练守卫模型。BraveGuard通过挖掘最新研究来源识别新兴风险与攻击模式,将其实例化为可执行的计算机使用任务,收集代理运行轨迹,并推导出轨迹级别的监督信号以训练守卫模型。当新威胁或验证失败出现时,该流水线可重复执行,形成自适应防御循环,而非静态的基准驱动训练过程。作者基于Qwen3-Guard和Llama-Guard等多种骨干模型实现了BraveGuard,并在轨迹级别的代理安全基准上评估。实验表明,BraveGuard在计算机使用轨迹上持续提升安全检测能力。在AgentHazard基准上,与现成守卫模型相比,平均守卫模型设置下的检测准确率从38.79%提升至82.38%。这些结果证明,基于开放世界威胁发现和真实代理执行的守卫监督能够超越固定分类法和合成提示级别数据,为应对不断演变的真实世界风险提供了可扩展的自适应防御路径。

💡 推荐理由: 计算机使用代理面临的多步执行安全风险难以被传统方法检测,BraveGuard通过自演化框架从开放世界威胁中学习轨迹级监督,显著提升了检测精度,为代理安全监控提供了实用且可扩展的防御新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Ayushi Sharma, Rosemary Agbozo, Santiago Torres-Arias, Zahra Ghodsi

机器学习系统面临着多样化的威胁,这些威胁会破坏模型的鲁棒性、隐私性和公平性。尽管已有许多防御方法被提出,但每个防御通常只孤立地解决单一风险。在实际部署中,需要将这些防御组合起来同时满足多个保障需求。然而,防御的组合过程复杂且尚未被充分理解,其对性能和安全的影响仍不明确。本文提出了Landseer,一个模块化框架,用于将机器学习防御集成到ML生命周期中,并系统地评估它们的组合效果。Landseer将防御封装为容器化模块,使得现有和新技术可以以最小的工作量插入。其评估引擎自动化了跨多个指标的实验,支持对防御进行单独和组合研究。在一项初步研究中,作者识别了35种最先进的机器学习防御,经过可复制性过滤后,使用Landseer的统一评估流程分析了它们的性能。研究结果揭示了跨防御家族的可复制性差距,并为集成多种防御的挑战和机遇提供了见解,为改进机器学习系统的可靠性奠定了基础。该论文适合机器学习安全研究人员、防御系统设计者以及希望理解防御组合权衡的从业者阅读。

💡 推荐理由: 该工作首次系统研究ML防御的组合问题,弥补了当前单个防御评估与真实部署需求之间的鸿沟,为构建更可靠的ML系统提供了方法论和工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)