该论文提出了一种新型安全威胁:多模态智能体中的“幻觉即利用”(Hallucination as Exploit)。多模态智能体通过截图、文档、网页等视觉输入选择工具调用。当模型产生错误的视觉主张(如误认页面元素)并触发点击、邮件发送、数据提取或转账等操作时,幻觉从回答质量错误转变为授权失败。作者将此模式形式化为“幻觉到动作转换”(Hallucination-to-Action Conversion, HACR),即一个无依据的感知主张提供了特权动作看似被允许的前提条件。为防御此类攻击,论文提出了“证据携带多模态智能体”(Evidence-Carrying Multimodal Agents, ECA)。ECA 将模型自由文本视为不可采纳的证据,每个工具调用被分解为动作关键谓词,通过受限的 DOM/OCR/AX 验证器获取类型化证书,并由确定性门控仅授予证书所支持的权限。该架构不隐藏感知错误,而是将不透明的模型信念转换为命名的验证器、模式和实现残差。在超过1900次攻击的验证器红队测试中,通过四个针对性强化步骤将门绕过率从15%降至1.3%。使用内容派生证书,ECA 在200任务的端到端流水线中实现了0%不安全动作率(Wilson 95%置信区间上限2.67%),在120任务的浏览器概念验证中上限为4.3%。对500个分层任务键的HACR审计显示,无防御的智能体中不安全执行率达100.0%,仅提示防御为49.6%,而ECA为0%。Oracle证书回放在7,488个GPT-5.4基准轨迹上作为门正确性验证,神经评判基线在相同威胁模型下仍可被绕过。核心原则:模型语言可以提议动作,但外部证据必须授权它们。
💡 推荐理由: 首次系统化定义了多模态智能体中幻觉引发的安全漏洞,并提出了可落地的防御架构,对构建可信AI代理具有里程碑意义。
🎯 建议动作: 研究跟进