#memory-attacks 主题 - Cyber Security Daily Radar

👥 作者: Debeshee Das, Julien Piet, Darya Kaviani, Luca Beurer-Kellner, Florian Tramèr, David Wagner

本文研究了LLM代理（Agent）长期记忆系统中的安全漏洞。尽管记忆系统允许无状态的LLM代理跨会话持久化用户信息，但这也引入了新的攻击面。作者提出了一类名为“Trojan Hippo”的持久性记忆攻击，该攻击在比以往记忆投毒研究更现实的威胁模型下运行：攻击者通过单个不可信的工具调用（例如一封精心制作的邮件）将休眠载荷植入代理的长期记忆，该载荷仅在用户后来讨论敏感话题（如财务、健康或身份）时激活，并将高价值个人数据窃取给攻击者。虽然已有对抗已部署系统的示范性攻击，但尚无工作系统性地评估不同记忆架构和防御下的此类攻击。本文引入了动态评估框架，包含两个组件：（1）基于OpenEvolve的自适应红队基准测试，通过持续改进的攻击对防御和记忆后端进行压力测试；（2）首次针对持久记忆系统的能力感知安全/效用分析，支持在不同使用场景下进行原则性的防御部署推理。在四个记忆后端（显式工具记忆、代理记忆、RAG和滑动窗口上下文）上以邮件助手为例进行实例化，Trojan Hippo对OpenAI和Google的最前沿模型实现了高达85-100%的攻击成功率（ASR），且植入的记忆即使在100次良性会话后仍能激活。作者评估了四种受基本安全原则启发的记忆系统防御，发现它们大大降低了攻击成功率（低至0-5%），但效用成本因任务要求而异。由于这种显著的安全-效用权衡，防御在现实世界中的有效部署仍然是一个开放的挑战，而本文的评估框架正是为解决这一问题而设计的。该研究对LLM代理系统的安全设计具有重要指导意义。

💡 推荐理由: 揭示了LLM代理记忆系统存在严重数据泄露风险，攻击者可通过单次工具调用长期潜伏，在高价值场景下窃取敏感信息。安全从业者需重视记忆层的防护。

🎯 建议动作: 研究跟进：评估自身AI代理系统是否使用长期记忆，并参考本文防御框架进行安全加固。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#memory-attacks

Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration