#memory-poisoning

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Pritam Dash, Tongyu Ge, Aditi Jain, Tanmay Shah, Zhiwei Shang

该论文系统性地研究了基于大语言模型(LLM)的智能体中的内存中毒攻击。内存作为智能体核心组件,允许其在多次交互中积累知识以提升性能,但同时也引入了风险:一次对抗性内存写入即可长期影响智能体行为。作者首先识别了四种内存写入通道(如用户输入、工具调用输出、系统提示修改、外部数据源),并分析了模型能力、系统提示设计以及智能体系统架构中存在的九种结构性漏洞,这些漏洞使得上述通道可被利用。基于这些漏洞,论文提出了包含六类内存中毒攻击的分类法,包括直接注入、间接注入、持久化污染、检索操纵、上下文污染和混合攻击。此外,作者设计了MPBench基准测试框架,用于评估内存中毒攻击的效果,实验表明更激进地写入和检索内存的智能体更容易被利用。研究还发现现有提示注入防御手段无法覆盖内存中毒攻击。该工作为理解和防御AI智能体中的内存中毒攻击奠定了基础,适合安全研究员和AI系统开发人员阅读。

💡 推荐理由: 随着AI Agent的广泛应用,内存中毒攻击可能导致其行为长期被恶意控制,现有防御措施失效,威胁LLM应用的实际安全。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu

本文提出了一种针对大型语言模型(LLM)智能体长期记忆系统的隐蔽后门攻击方法——MemPoison。LLM智能体通过长期记忆支持持续自主的任务执行,但记忆系统的选择性提取和重写机制使得传统记忆投毒攻击难以生效。MemPoison通过对话交互将可触发的后门注入智能体长期记忆,从而误导其后续响应。该方法包含三个关键组件:(1)语义关系桥,将触发词与载荷绑定为连贯语句,确保它们被一同提取至记忆;(2)实体伪装,优化触发词使其模仿命名实体,抵抗记忆重写;(3)联合嵌入优化,将包含触发词的文本在嵌入空间中形成紧密簇,并与良性嵌入保持隔离,实现隐蔽性。实验覆盖不同智能体领域和记忆机制,MemPoison攻击成功率高达0.95,显著优于现有基线。机制分析表明,攻击利用了嵌入空间的各向异性并改变了注意力模式,揭示了选择性记忆系统的核心脆弱性。论文还评估了多种防御策略,证明它们在缓解该攻击方面存在根本性局限。该工作适合AI安全研究员、LLM智能体开发者以及关注对抗机器学习的防御者阅读。

💡 推荐理由: 首次展示攻击者通过自然对话即可在LLM智能体长期记忆中植入隐蔽后门,绕过了现有选择性记忆机制,对依赖记忆的自主智能体构成可信赖性威胁。

🎯 建议动作: 研究跟进,评估现有记忆系统的防御能力,并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 5.6
Conf: 50%
👥 作者: Xuanye Zhang, Yongsen Zheng, Zhuqin Xu, Kaiyu Zhou, Bowen Shen, Haoran Ou, Tianwei Zhang, Kwok-Yan Lam

本文提出了一种针对LLM驱动智能体的新型攻击方法MemMorph,通过污染智能体的长期记忆来劫持其工具选择过程。现有攻击主要操纵工具元数据,容易被审计检测,并且随着现代智能体越来越多地采用记忆模块通过积累经验来优化工具选择策略,这些攻击可能失效。MemMorph通过注入少量(仅需3条)精心构造的记录(伪装成技术事实、事件报告或操作策略),不直接指定工具调用决策,而是重塑智能体的上下文感知和决策过程,使其自主推断并选择攻击者偏好的工具。在3个基准测试、10种智能体骨架和3种记忆模块实现上的实验表明,MemMorph的攻击成功率最高达85.9%,比最强基线高出25%,且在3种代表性防御下仍保持有效性。该研究揭示了长期记忆作为工具增强型智能体中一个关键且未被充分探索的攻击面,呼吁开发记忆层面的完整性保护机制。

💡 推荐理由: 首次揭示LLM智能体长期记忆作为攻击面,可能被利用来隐蔽地操纵工具选择,影响依赖外部工具的AI系统安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 10.5
Conf: 50%
👥 作者: Ciyan Ouyang, Rui Hou

本文提出了 MemLineage,一种针对 LLM 智能体记忆的防御机制。近期研究表明,不受信任的内容可能被写入智能体的持久状态,并在后续会话中作为指令重新进入,从而引发安全风险。MemLineage 将这个问题视为链式保管问题而非过滤问题,通过为每条记忆条目附加加密 provenance 和 LLM 介导的衍生谱系来应对。系统围绕基于 RFC-6962 Merkle 日志和 Ed25519 签名的条目构建,包含六个模块:加权衍生有向无环图记录哪些检索到的条目影响了新记忆,并采用最大强边传播规则,使得当归因边高于阈值时,不受信任路径持久性得以保持。敏感动作门控机制会拒绝那些活跃理由来源于外部祖先的分发,同时允许良性召回。作者在确定性机制隔离测试台上评估了三个防御单元,针对三种记忆投毒工作负载,MemLineage 是唯一将所有列的 ASR 降至零的配置,且每次操作的子毫秒开销远低于任何 LLM 调用的噪声底限。此外,基于 Codex 的 AgentDojo 桥接进一步分离了强模型行为与防御层行为:在故意存在漏洞的工具输出配置下,无防御和仅签名基线在所有六个银行配对任务上均失败,而所有 MemLineage 行将严格 AgentDojo ASR 降至零。核心确定性工件通过字节相等 CI 验证,托管模型 AgentDojo 和实时模型扫描作为可审计日志记录。本文适合 LLM 安全研究者和智能体系统开发者阅读。

💡 推荐理由: 本文解决了 LLM 智能体记忆投毒这一新兴威胁,提供了一种可验证的谱系追踪防御方案,对构建安全可靠的自主智能体系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)