该论文聚焦于层级多智能体系统(MAS)的安全性问题,该类系统正快速部署于金融、软件工程等高风险工作流中。由于安全和保障职责分散在不同角色的智能体之间,攻击面显著扩大,尤其是面临权限提升和跨智能体共谋等协调性对抗行为时。现有红队测试方法存在局限:依赖启发式选择目标智能体并扰动孤立消息流,未能解答哪些智能体对系统安全最负责,以及受损智能体如何协调绕过防御。为此,作者提出MAStrike框架,一种用于层级MAS的闭环共谋红队测试方法。主要贡献包括:首次提出面向MAS的智能体级Shapley值分析,量化每个智能体在任务特定分布下对系统鲁棒性的边际贡献;基于该归因,MAStrike识别脆弱智能体联盟并生成协调的、角色感知的对抗操纵;通过结构化因果诊断迭代优化攻击,将失败案例归因于阻止对抗尝试的未妥协智能体。此外,构建了涵盖多种层级拓扑和领域(金融、软件工程、CRM)的综合性MAS红队测试基准与可控环境。在多个前沿模型构建的MAS上进行的广泛实验表明,MAStrike显著优于启发式基线。分析还揭示了非平凡的Shapley值分布及智能体间高阶交互结构,暴露出被先前单智能体或模板方法忽视的关键脆弱性与协调模式。该研究为理解和防御多智能体系统的协同攻击提供了新视角和方法。
💡 推荐理由: 首次将Shapley值应用于MAS安全归因,揭示了智能体间高阶协同漏洞,对金融、工程等领域中部署的层级Agent系统具有重要防御指导意义。
🎯 建议动作: 研究跟进