#llm-agents

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Pritam Dash, Tongyu Ge, Aditi Jain, Tanmay Shah, Zhiwei Shang

该论文系统性地研究了基于大语言模型(LLM)的智能体中的内存中毒攻击。内存作为智能体核心组件,允许其在多次交互中积累知识以提升性能,但同时也引入了风险:一次对抗性内存写入即可长期影响智能体行为。作者首先识别了四种内存写入通道(如用户输入、工具调用输出、系统提示修改、外部数据源),并分析了模型能力、系统提示设计以及智能体系统架构中存在的九种结构性漏洞,这些漏洞使得上述通道可被利用。基于这些漏洞,论文提出了包含六类内存中毒攻击的分类法,包括直接注入、间接注入、持久化污染、检索操纵、上下文污染和混合攻击。此外,作者设计了MPBench基准测试框架,用于评估内存中毒攻击的效果,实验表明更激进地写入和检索内存的智能体更容易被利用。研究还发现现有提示注入防御手段无法覆盖内存中毒攻击。该工作为理解和防御AI智能体中的内存中毒攻击奠定了基础,适合安全研究员和AI系统开发人员阅读。

💡 推荐理由: 随着AI Agent的广泛应用,内存中毒攻击可能导致其行为长期被恶意控制,现有防御措施失效,威胁LLM应用的实际安全。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001

本研究聚焦于大语言模型(LLM)代理中的工具选择机制面临的提示注入攻击威胁。LLM代理通常通过调用外部工具来扩展其能力,例如搜索引擎、计算器或数据库查询。工具选择是代理根据用户指令和上下文自动决定调用哪个工具的关键步骤。研究者发现,攻击者可以通过精心构造的提示,操纵代理选择恶意工具或绕过安全限制,从而引发数据泄露、权限滥用等风险。论文系统性地分析了这类攻击的原理,提出了一种基于对抗性提示的威胁模型,并设计了多组实验验证攻击的可行性和影响。实验表明,当前主流LLM代理(如基于GPT-4、LLaMA等)的工具选择模块在面临针对性提示注入时表现出脆弱性。作者进一步讨论了防御策略,包括输入净化、上下文隔离和工具使用权限最小化等。该研究揭示了LLM代理安全性的新维度,为开发更健壮的代理系统提供了理论基础和实用建议。适合AI安全研究员、LLM应用开发者及安全工程师阅读。

💡 推荐理由: 随着LLM代理广泛应用,工具选择环节的安全隐患可能成为攻击者控制代理行为的突破口,导致敏感数据泄露或恶意操作。本研究率先系统性分析该威胁,对防御策略设计具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)