#harm-amplification 主题 - Cyber Security Daily Radar

👥 作者: Md Hafizur Rahman, Zafaryab Haider, Tanzim Mahfuz, Prabuddha Chakraborty

本文提出了一种名为HARP（Harm Amplification through Role Perturbation）的方法，用于测量多智能体LLM系统中的危害放大效应。在多智能体系统中，工作流被分解为多个代理、工具、共享上下文、内存和决策门等组件，这种模块化设计虽然提高了可解释性，但也引入了传播风险：对一个组件的有限扰动可能被其他代理重用并放大为系统级危害。HARP采用轨迹优先（trace-first）方法，通过比较干净执行和受扰动执行之间的差异，记录各专业代理的输出、工具调用、内存读写、守卫事件、Oracle日志、延迟、令牌成本和决策等信息。该方法定义了局部危害（目标代理或受损通道的偏差）、全局危害（整个轨迹的偏差）以及危害放大系数（H_global/H_local），从而补充了攻击成功率指标，衡量编排如何将危害从攻击点扩散开。作者在面向金融领域的七代理系统中实例化HARP，该系统具有确定性决策门和可配置的攻击框架，支持专业代理妥协、串通、共享上下文污染以及时间或内存持久性攻击。实验评估了五种防御措施：仅提示防御（保留良性效用但成功率和隐蔽性高）、工具前和步骤级守卫（部分减少失败但带来效用或延迟成本）、以及完整性守卫（基于轨迹一致性的防御，达到最低攻击成功率和全局危害但引入效用/成本权衡）。结果表明：单专业代理妥协产生最强放大效应，共享上下文污染产生最高攻击成功率，时间持久性产生最大恶意影响。本文强调，安全的多智能体评估必须不仅测量绕过，还要测量传播。适合安全研究人员、LLM系统开发者和红蓝队成员阅读。

💡 推荐理由: 首次系统量化多智能体LLM系统中局部扰动如何全局扩散，为设计安全编排提供了新视角和度量标准。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#harm-amplification

HARP: Measuring Harm Amplification in Multi-Agent LLM Systems