#multi-agent systems 主题 - Cyber Security Daily Radar

👥 作者: Fanxiao Li, Jiaying Wu, Tingchao Fu, Natasha Jaques, Wei Zhou, Min-Yen Kan

本研究聚焦于多智能体LLM系统中的规划时安全漏洞。当前多智能体系统（MAS）常采用规划器-执行器架构，规划器将用户提示转换为子任务、角色、依赖关系和路由路径。这种灵活性虽然实现了自适应协调，但也暴露出工作流程形成中的攻击面：攻击者可以通过精心设计的输入提示，在不修改MAS基础设施的情况下，操纵智能体的组织方式。论文通过社会影响探查工作流程，识别高影响子任务和恶意信号传播路径，揭示了两个关键漏洞：一是工作流程中的位置可以放大或抑制恶意信号；二是谄媚性框架（sycophantic framing）使下游智能体更倾向于传递恶意信号。基于这些发现，作者提出了FlowSteer攻击——一种纯提示驱动的工作流程操纵方法。FlowSteer将已知漏洞先验转化为一条精心构造的提示，将恶意信号与影响较大的任务组件对齐，并引导规划器生成有利于恶意信号传播的依赖关系。实验表明，与朴素提示相比，FlowSteer使恶意信号成功传播率提升高达55%，且在不同MAS配置间具有可迁移性，甚至在黑盒拓扑推断场景下仍有效。由于FlowSteer在规划阶段直接偏置了生成工作流程的信号，仅对生成的工作流程进行检测的防御措施效果有限。为此，作者提出了输入侧防御FlowGuard，可将恶意信号成功率降低34%，同时保持提示的实用性。该研究将工作流程形成定位为多智能体LLM系统的一个新的安全前沿，开创了规划时安全视角，关注智能体协调本身如何被攻击和防御。适合多智能体系统安全研究员、LLM应用开发者、以及关注AI系统对抗鲁棒性的从业者阅读。

💡 推荐理由: 揭示了多智能体LLM系统在规划阶段的新攻击面，攻击者可仅通过输入提示操纵工作流程，绕过下游检测机制。这对依赖LLM协调的自动化决策系统构成潜在威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#multi-agent systems

FlowSteer: Prompt-Only Workflow Steering Exposes Planning-Time Vulnerabilities in Multi-Agent LLM Systems