本论文提出了一种名为 CodeName 的行为防火墙,用于保护由大语言模型驱动的结构化工作流 AI 代理。这类代理会对外部敏感环境执行工具调用,面临被攻击者利用的风险。研究背景基于序列入侵检测思想,核心方法是将经过验证的良性工具调用遥测数据编译成一个参数化确定性有限自动机(pDFA)。该自动机定义了允许的工具序列、顺序上下文以及参数边界。在运行时,一个轻量级网关通过 O(1) 时间复杂度的状态转换结构查找来强制这些边界,将计算开销大的分析工作全部转移到离线阶段。实验在 Agent Security Bench (ASB) 上进行,评估五个场景。CodeName 实现了 5.6% 的宏平均攻击成功率 (ASR);在三个结构化工作流中,ASR 降至 2.2%,优于当前最先进的无状态扫描器 Aegis(其 ASR 为 12.8%)。在结构设置下,CodeName 对多步攻击和上下文序列攻击实现了 0% 的 ASR。此外,对 1,000 个算法拼接的渗透载荷进行测试,只有 1.4% 匹配了有效的结构路径,而这些路径全部在端到端字符串参数守卫上失败(14 条幸存路径中成功数为 0,95% CI [0%, 23.2%])。CodeName 每次调用仅引入 2.2 毫秒延迟(比 Aegis 快 3.7 倍),同时在良性工作负载上保持 2.0% 的良性任务失败率(BTFR)。论文指出,建模行为轨迹能有效缩小攻击面,但未维护的连续参数边界仍易受同义词替换攻击(18% 的规避率),因此对敏感参数进行精确匹配白名单是最终的执行防御手段。本工作为 AI 代理的行为安全提供了一种高效、可部署的解决方案。
💡 推荐理由: 为结构化工作流 AI 代理提供轻量级、可部署的行为防火墙,能显著降低攻击成功率且延迟极低,对保障 LLM 代理的落地安全有直接价值。
🎯 建议动作: 研究跟进