该论文针对基于大语言模型(LLM)的多智能体系统(MAS)面临的安全威胁,提出了一种主动防御框架 SAIGuard。在 MAS 中,智能体通过通信协作完成复杂任务,但攻击者可利用恶意消息在智能体间传播风险,导致系统级故障。现有防御方法多为被动反应式,即在攻击执行后检测和隔离有害智能体,这可能导致不可逆的损害并降低协作效率。SAIGuard 采用通信状态模拟技术,对 MAS 交互图进行仿真,估计传入消息对局部智能体状态和全局 MAS 状态的影响。通过重构偏差检测,SAIGuard 能够识别偏离良性通信模式的危险消息,并在其传播之前对其进行净化或重新生成。实验在多种拓扑结构和攻击场景下进行,结果表明 SAIGuard 在保持 MAS 实用性的同时,显著降低了攻击成功率,性能优于现有的反应式防御。该研究为 LLM 多智能体系统的安全提供了一种前瞻性的主动防御思路。
💡 推荐理由: LLM 多智能体系统面临独特的安全风险,现有反应式防御存在滞后性。SAIGuard 首次提出基于通信状态模拟的主动防御,有望在攻击生效前拦截恶意消息,对保障协作式 AI 系统安全具有重要参考价值。
🎯 建议动作: 研究跟进