推荐 10.5
Conf: 50%
该论文提出了一种名为"行为防火墙"(Behavioral Firewall)的检测方法,用于保护由大型语言模型驱动的结构化工作流AI代理。这类代理在执行工具调用时可能面临恶意攻击。方法基于遥测驱动的行为异常检测,通过将已验证的良性工具调用遥测数据编译为参数化确定有限自动机(pDFA),定义允许的工具序列、上下文依赖和参数边界。运行时,一个轻量级网关通过O(1)状态转换结构查找强制这些边界,将计算密集型分析离线进行。在Agent Security Bench (ASB)上的评估表明,该方法在五个场景中的宏平均攻击成功率为5.6%,在三个结构化工作流中降至2.2%,优于当前最先进的无状态扫描器Aegis(12.8%)。对结构化工作流中的多步和上下文序列攻击,成功率为0%。针对1000个算法拼接的渗出载荷,仅1.4%匹配有效结构路径,且所有路径均因端到端字符串参数守卫而失败(0成功,95%置信区间[0%, 23.2%])。方法引入的每调用延迟仅为2.2毫秒(比Aegis快3.7倍),良性任务失败率为2.0%。然而,未维护的连续参数边界仍易受同义词替换攻击(18%逃逸率),因此精确匹配的敏感参数白名单是最终防御手段。该工作表明,建模行为轨迹可有效缩小攻击面,但需要持续维护参数约束。
💡 推荐理由: 针对LLM驱动AI代理的结构化工作流,提出了一种轻量级行为防火墙,通过pDFA建模工具调用序列和参数约束,在多层和上下文攻击中表现优异,同时保持低延迟。该方法为Agent安全提供了新的防御思路,但同义词替换攻击提示了参数白名单的必要性。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)