本文针对结构化工作流AI代理(由大型语言模型驱动执行工具调用)的安全问题,提出了一种基于遥测驱动的行为异常检测防火墙——BehaveGuard。该方法借鉴序列入侵检测思想,将已验证的良性工具调用遥测编译为参数化确定有限自动机(pDFA),定义允许的工具序列、上下文和参数范围。运行时,轻量级网关通过O(1)状态转移结构查找强制执行边界,而计算密集型分析离线完成。在Agent Security Benchmark(ASB)上评估,BehaveGuard在五个场景中宏观平均攻击成功率(ASR)为5.6%;在三个结构化工作流中ASR降至2.2%,优于现有最先进的无状态扫描器Aegis(12.8%)。对多步攻击和上下文序列攻击,结构化设置下ASR为0%。针对1000个算法拼接的渗透载荷,仅1.4%匹配有效结构路径,且所有存活路径因字符串参数守卫失败(0次成功,95%置信区间[0%, 23.2%])。BehaveGuard引入每调用2.2ms延迟(比Aegis快3.7倍),良性任务失败率(BTFR)为2.0%。研究表明,建模行为轨迹有效缩小攻击面,但未维护的连续参数边界仍易受同义词替换攻击(逃逸率18%),因此最终依赖精确匹配白名单应对敏感参数的执行防御。
💡 推荐理由: 针对LLM驱动的结构化工作流代理,提出一种轻量级、低延迟的行为防火墙,显著降低攻击成功率,且实际部署友好,为AI代理安全防护提供了新思路。
🎯 建议动作: 研究跟进,评估该行为防火墙方法在自身AI代理安全防护中的可行性。