#trojan

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

该论文针对LLM Agent安全领域,揭示了一种新型的多步Trojan攻击范式。在本地Agent harness(如OpenClaw模拟的工作空间)中,LLM能够读写文件、调用工具并在会话间复用工作空间状态。攻击者可以将恶意prompt注入到文件或工具输出中,Agent自动读取这些隐藏指令并持久化存储,后续执行时触发。这种攻击的隐蔽性在于单一步骤看似无害,但组合后可将不可信文本转化为持久控制令牌(如“SYSTEM OVERRIDE”)。现有防御多孤立检测单一步骤,能阻断显式恶意行为,但无法识别植入后门的写操作。作者构建了ClawTrojan基准,在GPT-5.4上实现95.5%的攻击成功率(ASR),而传统单轮prompt injection攻击的ASR接近0%。为应对该威胁,提出DASGuard防护机制:扫描敏感文件中类似控制令牌的文本,追溯其来源,移除不可信来源的控制内容。DASGuard结合运行时攻击阻断与工作空间净化的提交机制,实现了强大的动态防御。实验表明DASGuard能有效检测并阻断多步Trojan攻击,同时保持较低误报率。该工作对于构建安全可靠的LLM Agent系统具有重要参考价值。

💡 推荐理由: 揭示了LLM Agent中prompt injection可转化为持久后门的新型攻击链,现有逐步检测防御失效,需关注跨步骤的复合威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu

本文提出了一种针对大型语言模型(LLM)智能体长期记忆系统的隐蔽后门攻击方法——MemPoison。LLM智能体通过长期记忆支持持续自主的任务执行,但记忆系统的选择性提取和重写机制使得传统记忆投毒攻击难以生效。MemPoison通过对话交互将可触发的后门注入智能体长期记忆,从而误导其后续响应。该方法包含三个关键组件:(1)语义关系桥,将触发词与载荷绑定为连贯语句,确保它们被一同提取至记忆;(2)实体伪装,优化触发词使其模仿命名实体,抵抗记忆重写;(3)联合嵌入优化,将包含触发词的文本在嵌入空间中形成紧密簇,并与良性嵌入保持隔离,实现隐蔽性。实验覆盖不同智能体领域和记忆机制,MemPoison攻击成功率高达0.95,显著优于现有基线。机制分析表明,攻击利用了嵌入空间的各向异性并改变了注意力模式,揭示了选择性记忆系统的核心脆弱性。论文还评估了多种防御策略,证明它们在缓解该攻击方面存在根本性局限。该工作适合AI安全研究员、LLM智能体开发者以及关注对抗机器学习的防御者阅读。

💡 推荐理由: 首次展示攻击者通过自然对话即可在LLM智能体长期记忆中植入隐蔽后门,绕过了现有选择性记忆机制,对依赖记忆的自主智能体构成可信赖性威胁。

🎯 建议动作: 研究跟进,评估现有记忆系统的防御能力,并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)