该论文针对LLM Agent安全领域,揭示了一种新型的多步Trojan攻击范式。在本地Agent harness(如OpenClaw模拟的工作空间)中,LLM能够读写文件、调用工具并在会话间复用工作空间状态。攻击者可以将恶意prompt注入到文件或工具输出中,Agent自动读取这些隐藏指令并持久化存储,后续执行时触发。这种攻击的隐蔽性在于单一步骤看似无害,但组合后可将不可信文本转化为持久控制令牌(如“SYSTEM OVERRIDE”)。现有防御多孤立检测单一步骤,能阻断显式恶意行为,但无法识别植入后门的写操作。作者构建了ClawTrojan基准,在GPT-5.4上实现95.5%的攻击成功率(ASR),而传统单轮prompt injection攻击的ASR接近0%。为应对该威胁,提出DASGuard防护机制:扫描敏感文件中类似控制令牌的文本,追溯其来源,移除不可信来源的控制内容。DASGuard结合运行时攻击阻断与工作空间净化的提交机制,实现了强大的动态防御。实验表明DASGuard能有效检测并阻断多步Trojan攻击,同时保持较低误报率。该工作对于构建安全可靠的LLM Agent系统具有重要参考价值。
💡 推荐理由: 揭示了LLM Agent中prompt injection可转化为持久后门的新型攻击链,现有逐步检测防御失效,需关注跨步骤的复合威胁。
🎯 建议动作: 研究跟进