#memory-poisoning 主题 - Cyber Security Daily Radar

👥 作者: Halima Bouzidi, Mboutidem Ekemini Mkpong, Mohammad Abdullah Al Faruque

多模态AI代理越来越依赖持久性长期记忆来在视觉和文本上下文中进行生成。本文揭示了对视觉数据的无条件信任是一个关键安全漏洞。作者提出了Lucid，一个黑盒对抗性框架，在严格的图像受限威胁模型下攻击多模态记忆管道，无需访问目标多模态大模型（MLLM）、目标检索编码器或文本通道。Lucid通过构建人眼不可察觉的扰动，实现了两种不同的故障模式：1）记忆投毒（in-context攻击）：用对抗图像替换被先前文本上下文强化内容的良性图像，可靠地破坏视觉回忆，将代理引导至攻击者选择的叙事；2）记忆注入（out-of-context攻击）：在缺乏先前文本基础的对话轮次中替换良性图像，导致代理生成受攻击者影响的回应，且无来自记忆的纠正信号。实验在多种对话领域和五种黑盒记忆架构（包括图结构化、LLM总结型以及商业部署系统）上进行，Lucid在投毒攻击上达到61.6%的攻击成功率（ASR），在注入攻击上达到58.4%的ASR，暴露了多模态记忆管道中的结构性脆弱点。本研究适合AI安全研究员、多模态系统开发者及防御者阅读。

💡 推荐理由: 首次系统性地证明多模态AI代理长期记忆中的视觉通道可被黑盒操纵，导致代理输出被攻击者控制的内容。这对依赖视觉上下文的企业级AI助手的可信度构成实质性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: George Torres, Sharad Shrestha, Satyajayant Misra

本文提出了一种针对大型语言模型（LLM）驱动的个人AI代理的新型攻击向量——GhostWriter，该攻击利用代理的记忆子系统进行投毒。当前的长时记忆代理主要分为对话型和动作规划型两类，而个人助理代理恰好处于两者的交汇点，在处理敏感信息的同时与不可信的信息源交互，因此存在此前未被考虑的安全漏洞。GhostWriter攻击分为两个阶段：注入阶段，攻击者向目标代理发送隐藏的攻击载荷；激活阶段，被投毒的记忆在后续任务中被检索并利用。实验表明，针对最先进的代理，GhostWriter的注入成功率接近98%，平均激活成功率约为60%。攻击之所以可能，是因为缺乏以安全为中心的记忆治理。作为应对，作者提出了Agentic Memory Sentry（AM-Sentry），它采用两种缓解技术：记忆保存策略（memory-saving policy）和记忆检索屏障（memory-retrieval screen）。实验证明，AM-Sentry在保持代理实用性的同时，显著降低了GhostWriter的成功率。本文适合关注LLM安全、AI代理安全以及记忆系统安全的研究人员阅读。

💡 推荐理由: 该研究揭示了LLM代理记忆系统存在的重大安全隐患，攻击者可通过投毒记忆实现对代理行为的长期操纵，对个人隐私和企业安全构成威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jun Wen Leong

本文提出了一种基于行为轨迹签名的LLM代理内存投毒攻击检测方法。作者发现在持久化内存投毒攻击场景下，存在一个行为不变性：在通过可观察的内存工具调用检索路由信息的架构中，成功的攻击必须依次调用 `memory_recall_fact` 和 `email_send_email`，而非外泄会话几乎不会出现这种转换。该不变性源于攻击的信息检索依赖，而非经验相关性，且抑制它会破坏攻击。基于此简单规则即可达到 AUC=0.9563；使用随机森林在 19 个轨迹特征上进一步优化至 AUC=0.9904（BCa 95% CI [0.987, 0.993]，N=10000 次重采样）。签名具有过定性：移除所有与回忆相关的特征（一半特征集）后 AUC 仍为 0.990，说明内存投毒会留下分布式的轨迹签名而非单一可观测异常。跨模型保留测试在 9 个模型（7B-120B 参数）上进行，6/9 的保留分割上 AUC=1.000，三个例外均有机理解释。该不变性可零训练迁移至前沿模型（GPT-4.1、GPT-4o）。仅使用前缀的变体也能达到 AUC=0.934，表明实时拦截可行且性能损失有限。边界在取证上很有用：绕过内存的提示注入攻击会产生不同的轨迹（分数 0.541），使事件响应者可以仅通过工具调用日志区分内存通道攻击与提示注入攻击。论文实验充分，证明了方法的鲁棒性和泛化能力。

💡 推荐理由: 为LLM代理内存投毒攻击提供了首个基于轨迹行为不变性的高精度检测方法，可区分内存攻击与提示注入，且无需重新训练即可迁移至前沿模型，对防御方极具实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Alex Kwon

本论文研究了 LLM agent 在跨步骤和会话中使用压缩记忆时，记忆体（如 mem0、LangMem）对对话内容进行重写为存储的“事实”所引发的安全隐患。作者通过构建实验环境，展示了一种无攻击者参与的“制造确信”现象：一个随意、含糊的评论被重写为一条确信的、带有时间戳的断言，agent 随后将其视为经过验证的事实来执行，即使该断言被后续交互否定。实验表明，agent 响应的依据并非信息来源（无论是归因、未归因，甚至伪造的“系统记录”），而是措辞的确信程度——含糊措辞被忽略，而确定断言被服从，且无需特殊关键词。不同含糊措辞的影响也存在差异：其中“据报道”等证据性措辞在大多数模型上被当作确信断言对待。论文还指出，简单的修复方案（如添加“未验证”标签或指令“不要信任此信息”）均无效：被动标签被忽略，主动指令反而会升级正确的记忆，导致 agent 仅能通过拒绝判断来确保安全。真正的修复在于记忆存储本身：保留试探性措辞而非升级为确信事实。但这仅是卫生措施，无法抵御恶意攻击者直接写入确信谎言。更具实践价值的教训是：单个承载关键信息的记忆是风险源，引入一个冗余来源即可恢复正确决策。作者发布了测试工具和演示代码。

💡 推荐理由: 揭示了 LLM agent 记忆机制中一个被忽视的脆弱性——记忆重写自动将试探性信息升级为确信事实，导致 agent 被无意操控。这对基于 agent 的自动化决策系统（如客服、合规审计）构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pritam Dash, Tongyu Ge, Aditi Jain, Tanmay Shah, Zhiwei Shang

该论文系统性地研究了基于大语言模型（LLM）的智能体中的内存中毒攻击。内存作为智能体核心组件，允许其在多次交互中积累知识以提升性能，但同时也引入了风险：一次对抗性内存写入即可长期影响智能体行为。作者首先识别了四种内存写入通道（如用户输入、工具调用输出、系统提示修改、外部数据源），并分析了模型能力、系统提示设计以及智能体系统架构中存在的九种结构性漏洞，这些漏洞使得上述通道可被利用。基于这些漏洞，论文提出了包含六类内存中毒攻击的分类法，包括直接注入、间接注入、持久化污染、检索操纵、上下文污染和混合攻击。此外，作者设计了MPBench基准测试框架，用于评估内存中毒攻击的效果，实验表明更激进地写入和检索内存的智能体更容易被利用。研究还发现现有提示注入防御手段无法覆盖内存中毒攻击。该工作为理解和防御AI智能体中的内存中毒攻击奠定了基础，适合安全研究员和AI系统开发人员阅读。

💡 推荐理由: 随着AI Agent的广泛应用，内存中毒攻击可能导致其行为长期被恶意控制，现有防御措施失效，威胁LLM应用的实际安全。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu

本文提出了一种针对大型语言模型（LLM）智能体长期记忆系统的隐蔽后门攻击方法——MemPoison。LLM智能体通过长期记忆支持持续自主的任务执行，但记忆系统的选择性提取和重写机制使得传统记忆投毒攻击难以生效。MemPoison通过对话交互将可触发的后门注入智能体长期记忆，从而误导其后续响应。该方法包含三个关键组件：（1）语义关系桥，将触发词与载荷绑定为连贯语句，确保它们被一同提取至记忆；（2）实体伪装，优化触发词使其模仿命名实体，抵抗记忆重写；（3）联合嵌入优化，将包含触发词的文本在嵌入空间中形成紧密簇，并与良性嵌入保持隔离，实现隐蔽性。实验覆盖不同智能体领域和记忆机制，MemPoison攻击成功率高达0.95，显著优于现有基线。机制分析表明，攻击利用了嵌入空间的各向异性并改变了注意力模式，揭示了选择性记忆系统的核心脆弱性。论文还评估了多种防御策略，证明它们在缓解该攻击方面存在根本性局限。该工作适合AI安全研究员、LLM智能体开发者以及关注对抗机器学习的防御者阅读。

💡 推荐理由: 首次展示攻击者通过自然对话即可在LLM智能体长期记忆中植入隐蔽后门，绕过了现有选择性记忆机制，对依赖记忆的自主智能体构成可信赖性威胁。

🎯 建议动作: 研究跟进，评估现有记忆系统的防御能力，并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Xuanye Zhang, Yongsen Zheng, Zhuqin Xu, Kaiyu Zhou, Bowen Shen, Haoran Ou, Tianwei Zhang, Kwok-Yan Lam

本文提出了一种针对LLM驱动智能体的新型攻击方法MemMorph，通过污染智能体的长期记忆来劫持其工具选择过程。现有攻击主要操纵工具元数据，容易被审计检测，并且随着现代智能体越来越多地采用记忆模块通过积累经验来优化工具选择策略，这些攻击可能失效。MemMorph通过注入少量（仅需3条）精心构造的记录（伪装成技术事实、事件报告或操作策略），不直接指定工具调用决策，而是重塑智能体的上下文感知和决策过程，使其自主推断并选择攻击者偏好的工具。在3个基准测试、10种智能体骨架和3种记忆模块实现上的实验表明，MemMorph的攻击成功率最高达85.9%，比最强基线高出25%，且在3种代表性防御下仍保持有效性。该研究揭示了长期记忆作为工具增强型智能体中一个关键且未被充分探索的攻击面，呼吁开发记忆层面的完整性保护机制。

💡 推荐理由: 首次揭示LLM智能体长期记忆作为攻击面，可能被利用来隐蔽地操纵工具选择，影响依赖外部工具的AI系统安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ciyan Ouyang, Rui Hou

本文提出了 MemLineage，一种针对 LLM 智能体记忆的防御机制。近期研究表明，不受信任的内容可能被写入智能体的持久状态，并在后续会话中作为指令重新进入，从而引发安全风险。MemLineage 将这个问题视为链式保管问题而非过滤问题，通过为每条记忆条目附加加密 provenance 和 LLM 介导的衍生谱系来应对。系统围绕基于 RFC-6962 Merkle 日志和 Ed25519 签名的条目构建，包含六个模块：加权衍生有向无环图记录哪些检索到的条目影响了新记忆，并采用最大强边传播规则，使得当归因边高于阈值时，不受信任路径持久性得以保持。敏感动作门控机制会拒绝那些活跃理由来源于外部祖先的分发，同时允许良性召回。作者在确定性机制隔离测试台上评估了三个防御单元，针对三种记忆投毒工作负载，MemLineage 是唯一将所有列的 ASR 降至零的配置，且每次操作的子毫秒开销远低于任何 LLM 调用的噪声底限。此外，基于 Codex 的 AgentDojo 桥接进一步分离了强模型行为与防御层行为：在故意存在漏洞的工具输出配置下，无防御和仅签名基线在所有六个银行配对任务上均失败，而所有 MemLineage 行将严格 AgentDojo ASR 降至零。核心确定性工件通过字节相等 CI 验证，托管模型 AgentDojo 和实时模型扫描作为可审计日志记录。本文适合 LLM 安全研究者和智能体系统开发者阅读。

💡 推荐理由: 本文解决了 LLM 智能体记忆投毒这一新兴威胁，提供了一种可验证的谱系追踪防御方案，对构建安全可靠的自主智能体系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#memory-poisoning

Do Agents Dream of False Memories? Black-box Visual Attacks on Long-term Memory in Multimodal AI Agents

When Agents Remember Too Much: Memory Poisoning Attacks on Large Language Model Agents

Forensic Trajectory Signatures for Agent Memory Poisoning Detection

Manufactured Confidence: How Memory Consolidation Turns Hearsay into Confident Facts

From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction

MemMorph: Tool Hijacking in LLM Agents via Memory Poisoning

MemLineage: Lineage-Guided Enforcement for LLM Agent Memory