#multi-agent-system 主题 - Cyber Security Daily Radar

👥 作者: Haowen Xu, Xue Tan, Lei Ma, Zhihao Zhang, Chao Wang, Qingze Wang, Ping Chen, Jun Dai, Xiaoyan Sun

该论文关注基于LLM的多智能体系统（MAS）面临的安全挑战。现有防御方法通常假设攻击在语义上显式可识别，并依赖显式的图结构建模MAS拓扑和Agent间交互。然而，实际攻击越来越隐蔽，且MAS执行通常是异步的，不满足图传播模型所需的时间对齐。为此，作者提出AcMAS，一种基于激活空间的恶意行为检测框架。AcMAS通过分析本地Agent内部推理状态的激活空间，无需依赖显式交互图，即可同步鲁棒地检测隐蔽攻击。此外，激活分析能指导AcMAS恢复受损Agent的功能，而非简单地隔离。实验表明，AcMAS在同步设置下F1达0.94（优于基线0.72），在异步设置下F1达0.93（优于基线0.38），且能泛化到不同的开源LLM骨干、攻击强度和MAS规模。该工作为MAS安全性提供了新视角，适合AI安全研究人员、SOC分析师及系统设计者阅读。

💡 推荐理由: 提出了不依赖显式图模型和语义特征的隐蔽攻击检测方法，解决了多智能体系统异步执行下的安全监控难题，对蓝队防御新型AI攻击具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chejian Xu, Zhaorun Chen, Jingyang Zhang, Freddy Lecue, Avni Kothari, Sarah Tan, Wenbo Guo, Bo Li

该论文聚焦于层级多智能体系统（MAS）的安全性问题，该类系统正快速部署于金融、软件工程等高风险工作流中。由于安全和保障职责分散在不同角色的智能体之间，攻击面显著扩大，尤其是面临权限提升和跨智能体共谋等协调性对抗行为时。现有红队测试方法存在局限：依赖启发式选择目标智能体并扰动孤立消息流，未能解答哪些智能体对系统安全最负责，以及受损智能体如何协调绕过防御。为此，作者提出MAStrike框架，一种用于层级MAS的闭环共谋红队测试方法。主要贡献包括：首次提出面向MAS的智能体级Shapley值分析，量化每个智能体在任务特定分布下对系统鲁棒性的边际贡献；基于该归因，MAStrike识别脆弱智能体联盟并生成协调的、角色感知的对抗操纵；通过结构化因果诊断迭代优化攻击，将失败案例归因于阻止对抗尝试的未妥协智能体。此外，构建了涵盖多种层级拓扑和领域（金融、软件工程、CRM）的综合性MAS红队测试基准与可控环境。在多个前沿模型构建的MAS上进行的广泛实验表明，MAStrike显著优于启发式基线。分析还揭示了非平凡的Shapley值分布及智能体间高阶交互结构，暴露出被先前单智能体或模板方法忽视的关键脆弱性与协调模式。该研究为理解和防御多智能体系统的协同攻击提供了新视角和方法。

💡 推荐理由: 首次将Shapley值应用于MAS安全归因，揭示了智能体间高阶协同漏洞，对金融、工程等领域中部署的层级Agent系统具有重要防御指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ruxue Shi, Yili Wang, Mengnan Du, Qinggang Zhang, Rui Miao, Yixin Liu, Xin Wang

该论文针对基于大语言模型（LLM）的多智能体系统（MAS）面临的安全威胁，提出了一种主动防御框架 SAIGuard。在 MAS 中，智能体通过通信协作完成复杂任务，但攻击者可利用恶意消息在智能体间传播风险，导致系统级故障。现有防御方法多为被动反应式，即在攻击执行后检测和隔离有害智能体，这可能导致不可逆的损害并降低协作效率。SAIGuard 采用通信状态模拟技术，对 MAS 交互图进行仿真，估计传入消息对局部智能体状态和全局 MAS 状态的影响。通过重构偏差检测，SAIGuard 能够识别偏离良性通信模式的危险消息，并在其传播之前对其进行净化或重新生成。实验在多种拓扑结构和攻击场景下进行，结果表明 SAIGuard 在保持 MAS 实用性的同时，显著降低了攻击成功率，性能优于现有的反应式防御。该研究为 LLM 多智能体系统的安全提供了一种前瞻性的主动防御思路。

💡 推荐理由: LLM 多智能体系统面临独特的安全风险，现有反应式防御存在滞后性。SAIGuard 首次提出基于通信状态模拟的主动防御，有望在攻击生效前拦截恶意消息，对保障协作式 AI 系统安全具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#multi-agent-system

When Agents Go Rogue: Activation-Based Detection of Malicious Behaviors in Multi-Agent Systems

MAStrike: Shapley-Guided Collusive Red-Teaming on Multi-Agent Systems

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems