推荐 3.6
Conf: 50%
本文研究了Model Context Protocol (MCP) 标准化自主智能体工具调用时引入的一个被忽视的攻击面:错误处理循环。作者假设工具的错误消息具有隐含权威,会触发智能体的纠正性推理模式,从而绕过标准安全启发式。为此,他们提出了VATS(Vulnerability Analysis of Tool Streams)框架,这是一个基于系统性突变的测试框架,能够沿着七个结构性和语言学维度生成对抗性载荷。通过在Gemini 3.1 Pro、GPT-5.5、GLM-5.1和Qwen3-Coder四个前沿模型上的评估,实验表明,错误路径注入能使标准间接提示注入(IPI)的成功率提高三倍,在受控评估中最高达到100%的遵从率。研究进一步发现,结构性定位(即在错误上下文中夹带指令)是跨所有测试模型的最有效利用向量。虽然生产框架的护栏可以缓解这些漏洞,但模型层的固有脆弱性对定制化智能体工作流构成了系统性风险。本文的主要贡献包括:识别并系统化了一个新攻击面,提出了一种自动化突变驱动测试方法,并通过大量实验验证了攻击的有效性和迁移性。适合AI安全研究员、智能体框架开发者及安全运营团队阅读。
💡 推荐理由: 揭示了MCP协议下自主智能体错误处理机制的安全漏洞,攻击成功率极高,直接影响依赖工具调用的AI系统的安全性。
🎯 建议动作: 研究跟进,将错误路径注入纳入威胁模型并进行针对性评估
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)