推荐 5.5
Conf: 50%
本文提出了一种名为HARP(Harm Amplification through Role Perturbation)的方法,用于测量多智能体LLM系统中的危害放大效应。在多智能体系统中,工作流被分解为多个代理、工具、共享上下文、内存和决策门等组件,这种模块化设计虽然提高了可解释性,但也引入了传播风险:对一个组件的有限扰动可能被其他代理重用并放大为系统级危害。HARP采用轨迹优先(trace-first)方法,通过比较干净执行和受扰动执行之间的差异,记录各专业代理的输出、工具调用、内存读写、守卫事件、Oracle日志、延迟、令牌成本和决策等信息。该方法定义了局部危害(目标代理或受损通道的偏差)、全局危害(整个轨迹的偏差)以及危害放大系数(H_global/H_local),从而补充了攻击成功率指标,衡量编排如何将危害从攻击点扩散开。作者在面向金融领域的七代理系统中实例化HARP,该系统具有确定性决策门和可配置的攻击框架,支持专业代理妥协、串通、共享上下文污染以及时间或内存持久性攻击。实验评估了五种防御措施:仅提示防御(保留良性效用但成功率和隐蔽性高)、工具前和步骤级守卫(部分减少失败但带来效用或延迟成本)、以及完整性守卫(基于轨迹一致性的防御,达到最低攻击成功率和全局危害但引入效用/成本权衡)。结果表明:单专业代理妥协产生最强放大效应,共享上下文污染产生最高攻击成功率,时间持久性产生最大恶意影响。本文强调,安全的多智能体评估必须不仅测量绕过,还要测量传播。适合安全研究人员、LLM系统开发者和红蓝队成员阅读。
💡 推荐理由: 首次系统量化多智能体LLM系统中局部扰动如何全局扩散,为设计安全编排提供了新视角和度量标准。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)