该论文系统性地研究了基于大语言模型(LLM)的智能体中的内存中毒攻击。内存作为智能体核心组件,允许其在多次交互中积累知识以提升性能,但同时也引入了风险:一次对抗性内存写入即可长期影响智能体行为。作者首先识别了四种内存写入通道(如用户输入、工具调用输出、系统提示修改、外部数据源),并分析了模型能力、系统提示设计以及智能体系统架构中存在的九种结构性漏洞,这些漏洞使得上述通道可被利用。基于这些漏洞,论文提出了包含六类内存中毒攻击的分类法,包括直接注入、间接注入、持久化污染、检索操纵、上下文污染和混合攻击。此外,作者设计了MPBench基准测试框架,用于评估内存中毒攻击的效果,实验表明更激进地写入和检索内存的智能体更容易被利用。研究还发现现有提示注入防御手段无法覆盖内存中毒攻击。该工作为理解和防御AI智能体中的内存中毒攻击奠定了基础,适合安全研究员和AI系统开发人员阅读。
💡 推荐理由: 随着AI Agent的广泛应用,内存中毒攻击可能导致其行为长期被恶意控制,现有防御措施失效,威胁LLM应用的实际安全。
🎯 建议动作: 研究跟进