本文研究了多模态Web智能体(Web Agent)中外部记忆组件(External Memory)的安全漏洞。现代Web智能体通常依赖外部记忆来存储长期经验,通过检索历史记录实现长程推理。然而,这种架构引入了一个关键风险:恶意内容若被注入记忆,可能在后续交互中被持续召回并反复影响智能体行为。作者系统性地识别并研究了多模态记忆投毒(Multimodal Memory Poisoning)这一此前被忽视的攻击面,并提出了一个统一的黑盒攻击框架MemVenom。该框架针对图结构的外部记忆,利用文本-图像协同证据进行投毒。其设计包含两个阶段:第一阶段是触发器条件检索攻击(Trigger-conditioned Retrieval Attack),确保恶意记忆以高概率被召回;第二阶段是检索后诱导攻击(Post-retrieval Attack Induction),通过对抗性扰动和隐蔽OCR注入覆盖用户原始目标。与以往基于提示或纯文本记忆的攻击不同,MemVenom无需修改模型参数或重新优化恶意任务,即可实现持久、可复用且目标无关的攻击。在多种Web智能体框架和视觉语言模型上的实验表明,MemVenom在GPT-5系列Web智能体上达到最高99.15%的成功率,且对良性性能影响极小,并在不同架构和模型规模间具有良好的迁移性。
💡 推荐理由: 首次系统性地揭示了多模态Web智能体外部记忆组件中的投毒攻击面,对依赖记忆的AI系统安全具有重要警示意义。
🎯 建议动作: 研究跟进