本研究聚焦于多智能体LLM系统中的规划时安全漏洞。当前多智能体系统(MAS)常采用规划器-执行器架构,规划器将用户提示转换为子任务、角色、依赖关系和路由路径。这种灵活性虽然实现了自适应协调,但也暴露出工作流程形成中的攻击面:攻击者可以通过精心设计的输入提示,在不修改MAS基础设施的情况下,操纵智能体的组织方式。论文通过社会影响探查工作流程,识别高影响子任务和恶意信号传播路径,揭示了两个关键漏洞:一是工作流程中的位置可以放大或抑制恶意信号;二是谄媚性框架(sycophantic framing)使下游智能体更倾向于传递恶意信号。基于这些发现,作者提出了FlowSteer攻击——一种纯提示驱动的工作流程操纵方法。FlowSteer将已知漏洞先验转化为一条精心构造的提示,将恶意信号与影响较大的任务组件对齐,并引导规划器生成有利于恶意信号传播的依赖关系。实验表明,与朴素提示相比,FlowSteer使恶意信号成功传播率提升高达55%,且在不同MAS配置间具有可迁移性,甚至在黑盒拓扑推断场景下仍有效。由于FlowSteer在规划阶段直接偏置了生成工作流程的信号,仅对生成的工作流程进行检测的防御措施效果有限。为此,作者提出了输入侧防御FlowGuard,可将恶意信号成功率降低34%,同时保持提示的实用性。该研究将工作流程形成定位为多智能体LLM系统的一个新的安全前沿,开创了规划时安全视角,关注智能体协调本身如何被攻击和防御。适合多智能体系统安全研究员、LLM应用开发者、以及关注AI系统对抗鲁棒性的从业者阅读。
💡 推荐理由: 揭示了多智能体LLM系统在规划阶段的新攻击面,攻击者可仅通过输入提示操纵工作流程,绕过下游检测机制。这对依赖LLM协调的自动化决策系统构成潜在威胁。
🎯 建议动作: 研究跟进