LLM驱动的智能体在执行日常用户请求时,可能会无声地删除文档、泄露凭证或转移资金,这并非因为智能体受到攻击,而是因为所调用的技能违反了其自身声明的安全规则。论文将此类问题定义为“规范违反”(specification violation):良性输入导致技能违反其规范中的自然语言护栏(guardrail),通常是由于护栏的语义在自主执行环境中未被明确定义,或者实现代码静默忽略了文档中的约束。这些违反行为对静态分析器、传统模糊测试工具以及提示注入防御手段均不可见,却破坏了用户在安装技能时所依赖的信任契约。为此,论文提出了Sefz——一个目标导向的语义模糊测试框架,能够自动发现智能体技能中的规范违反。Sefz将每条护栏转化为带注释执行轨迹上的可达性目标,从而将违反检查简化为确定性图查询问题。它利用基于LLM的变异器生成良性输入,这些输入的轨迹在由多臂老虎机算法引导下逐步接近违反模式,该算法以目标接近度作为奖励信号。在来自最大公共技能市场的402个真实世界技能上,Sefz在120个(29.9%)中发现了规范违反,包括26个先前未知的在已部署技能中可利用的护栏违反。论文进一步归纳出六个重复出现的规范缺陷,它们解释了大部分失败案例,并为更安全的技能设计提供了具体原则。 【简评】该研究揭示了一个被广泛忽视的安全漏洞面——不是攻击,而是技能自身的规范缺陷。它为安全社区提供了一种自动化发现此类问题的实用方法,对LLM智能体的生态安全具有重要启示。
💡 推荐理由: 传统安全防御(静态分析、模糊测试、提示注入防护)无法检测到技能自身的规范违反,而这类缺陷可被无攻击利用,导致敏感操作越权执行。该研究首次系统性地定义并自动发现该问题,对LLM智能体平台和技能开发者具有直接警示意义。
🎯 建议动作: 对内部使用的或即将上架的智能体技能,评估是否可能存在规范违反,并考虑采用类似Sefz的语义模糊测试工具进行排查;技能开发者应严格定义护栏的语义并确保实现一致。