#memory-attack

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Yv Zhang, Hao Sun, Hao Fang, Kuofeng Gao, Fan Mo, Bin Chen, Shu-Tao Xia, Yaowei Wang

本文研究了多模态Web智能体(Web Agent)中外部记忆组件(External Memory)的安全漏洞。现代Web智能体通常依赖外部记忆来存储长期经验,通过检索历史记录实现长程推理。然而,这种架构引入了一个关键风险:恶意内容若被注入记忆,可能在后续交互中被持续召回并反复影响智能体行为。作者系统性地识别并研究了多模态记忆投毒(Multimodal Memory Poisoning)这一此前被忽视的攻击面,并提出了一个统一的黑盒攻击框架MemVenom。该框架针对图结构的外部记忆,利用文本-图像协同证据进行投毒。其设计包含两个阶段:第一阶段是触发器条件检索攻击(Trigger-conditioned Retrieval Attack),确保恶意记忆以高概率被召回;第二阶段是检索后诱导攻击(Post-retrieval Attack Induction),通过对抗性扰动和隐蔽OCR注入覆盖用户原始目标。与以往基于提示或纯文本记忆的攻击不同,MemVenom无需修改模型参数或重新优化恶意任务,即可实现持久、可复用且目标无关的攻击。在多种Web智能体框架和视觉语言模型上的实验表明,MemVenom在GPT-5系列Web智能体上达到最高99.15%的成功率,且对良性性能影响极小,并在不同架构和模型规模间具有良好的迁移性。

💡 推荐理由: 首次系统性地揭示了多模态Web智能体外部记忆组件中的投毒攻击面,对依赖记忆的AI系统安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 5.5
Conf: 50%
👥 作者: Mahavir Dabas, Jihyun Jeong, Ming Jin, Ruoxi Jia

该论文研究了现代LLM代理系统中长期记忆与工具调用接口结合时出现的一种新故障模式:存储在记忆中的个性驱动偏见(如成本意识、不耐烦、风险承受能力等)会在不相关的情境中悄然影响工具调用,作者称之为“记忆诱导的工具漂移”。为了系统化研究这一现象,他们通过自动化对抗性流水线生成了覆盖五个偏见维度和七个专业领域的105个场景的基准测试集MEMDRIFT。在七个前沿模型(包括具有扩展推理能力的模型)上,有偏见的记忆将偏转分数(一种评分者评估的参数偏离无偏见基线的度量)在1-5分制下最高提高了+3.6分。工具漂移在三种生产级记忆架构中持续存在。该现象影响真实工具:扫描288个经过验证的MCP服务器中的6062个工具,标记了608个易受影响参数,并在验证子集上确认了工具漂移。机制上,有偏见的记忆充当隐式引导向量,沿着与显式行为指令相同的潜在方向推动激活,并将注意力从任务相关上下文重新分配到与目标参数具有表层关键词重叠的记忆条目。标准防御(基于提示的相关性指令和记忆过滤器)可减少漂移但无法消除。随着代理代表用户采取越来越重要的行动,记忆诱导的工具漂移构成了当前安全措施未能解决的系统性漏洞,需要在记忆管理和工具调用生成的交叉点进行专门防御。

💡 推荐理由: LLM代理在生产中结合记忆与工具调用,该研究揭示了一种隐蔽的、利用记忆的对抗攻击面,可能导致代理执行非预期工具操作,威胁用户隐私和系统安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)