#memory-attacks

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Debeshee Das, Julien Piet, Darya Kaviani, Luca Beurer-Kellner, Florian Tramèr, David Wagner

本文研究了LLM代理(Agent)长期记忆系统中的安全漏洞。尽管记忆系统允许无状态的LLM代理跨会话持久化用户信息,但这也引入了新的攻击面。作者提出了一类名为“Trojan Hippo”的持久性记忆攻击,该攻击在比以往记忆投毒研究更现实的威胁模型下运行:攻击者通过单个不可信的工具调用(例如一封精心制作的邮件)将休眠载荷植入代理的长期记忆,该载荷仅在用户后来讨论敏感话题(如财务、健康或身份)时激活,并将高价值个人数据窃取给攻击者。虽然已有对抗已部署系统的示范性攻击,但尚无工作系统性地评估不同记忆架构和防御下的此类攻击。本文引入了动态评估框架,包含两个组件:(1)基于OpenEvolve的自适应红队基准测试,通过持续改进的攻击对防御和记忆后端进行压力测试;(2)首次针对持久记忆系统的能力感知安全/效用分析,支持在不同使用场景下进行原则性的防御部署推理。在四个记忆后端(显式工具记忆、代理记忆、RAG和滑动窗口上下文)上以邮件助手为例进行实例化,Trojan Hippo对OpenAI和Google的最前沿模型实现了高达85-100%的攻击成功率(ASR),且植入的记忆即使在100次良性会话后仍能激活。作者评估了四种受基本安全原则启发的记忆系统防御,发现它们大大降低了攻击成功率(低至0-5%),但效用成本因任务要求而异。由于这种显著的安全-效用权衡,防御在现实世界中的有效部署仍然是一个开放的挑战,而本文的评估框架正是为解决这一问题而设计的。该研究对LLM代理系统的安全设计具有重要指导意义。

💡 推荐理由: 揭示了LLM代理记忆系统存在严重数据泄露风险,攻击者可通过单次工具调用长期潜伏,在高价值场景下窃取敏感信息。安全从业者需重视记忆层的防护。

🎯 建议动作: 研究跟进:评估自身AI代理系统是否使用长期记忆,并参考本文防御框架进行安全加固。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)