本文研究了大型语言模型(LLM)代理在使用外部工具时面临的一种新型安全威胁:认知中毒(cognitive poisoning)。在这种攻击场景下,恶意工具在探索阶段表现得合理且有用,通过提供看似无害的反馈逐步积累代理的信任,只有当隐藏状态条件(如特定的工具调用序列或代理内部状态)满足时,才会在最终的可执行动作中引发危害。现有的大多数代理安全基准和防御方法隐含地假设工具反馈一旦被选中就是可信的,忽略了这种动态信任形成过程中的漏洞。为了系统研究该问题,作者构建了TRUST-Bench基准,包含1,970个隐藏触发工具妥协场景以及匹配的安全控制场景。同时提出了一种非对称惩罚指标GuardedJoint,以更好地反映真实部署风险——该指标同时惩罚漏报(未检测到的攻击)和误报(错误拦截安全动作),避免了传统指标对安全-效用权衡的单边优化。核心防御框架VISTA-Guard是与骨干模型无关的最终动作风险评分系统,其关键思想是将多步工具交互抽象为结构化环境变量,编码信任形成动态,然后从轨迹条件化表示中评估最终可执行动作的风险。实验表明,基于提示的启发式方法、标量特征以及零样本评判在该场景下均失效,而轨迹感知的最终动作评分在领域内实现了强判别能力(GuardedJoint得分84.2),并在均衡的分布外迁移下保持有效(56.9)。相比之下,仅优化安全或效用单边的方法得分归零。这些发现支持对黑盒工具生态系统中代理安全的更广泛视角:决定性的防御目标不仅是局部提示文本或工具描述,而是跨交互轨迹形成的信任方式以及通过最终动作承诺的风险。
💡 推荐理由: 揭示了LLM代理在使用外部工具时面临的新型信任攻击,现有防御方法失效,为构建更鲁棒的代理安全框架提供了新方向。
🎯 建议动作: 研究跟进