#specification-violation 主题 - Cyber Security Daily Radar

👥 作者: Ying Li, Hongbo Wen, Yanju Chen, Hanzhi Liu, Yuan Tian, Yu Feng

LLM驱动的智能体在执行日常用户请求时，可能会无声地删除文档、泄露凭证或转移资金，这并非因为智能体受到攻击，而是因为所调用的技能违反了其自身声明的安全规则。论文将此类问题定义为“规范违反”（specification violation）：良性输入导致技能违反其规范中的自然语言护栏（guardrail），通常是由于护栏的语义在自主执行环境中未被明确定义，或者实现代码静默忽略了文档中的约束。这些违反行为对静态分析器、传统模糊测试工具以及提示注入防御手段均不可见，却破坏了用户在安装技能时所依赖的信任契约。为此，论文提出了Sefz——一个目标导向的语义模糊测试框架，能够自动发现智能体技能中的规范违反。Sefz将每条护栏转化为带注释执行轨迹上的可达性目标，从而将违反检查简化为确定性图查询问题。它利用基于LLM的变异器生成良性输入，这些输入的轨迹在由多臂老虎机算法引导下逐步接近违反模式，该算法以目标接近度作为奖励信号。在来自最大公共技能市场的402个真实世界技能上，Sefz在120个（29.9%）中发现了规范违反，包括26个先前未知的在已部署技能中可利用的护栏违反。论文进一步归纳出六个重复出现的规范缺陷，它们解释了大部分失败案例，并为更安全的技能设计提供了具体原则。【简评】该研究揭示了一个被广泛忽视的安全漏洞面——不是攻击，而是技能自身的规范缺陷。它为安全社区提供了一种自动化发现此类问题的实用方法，对LLM智能体的生态安全具有重要启示。

💡 推荐理由: 传统安全防御（静态分析、模糊测试、提示注入防护）无法检测到技能自身的规范违反，而这类缺陷可被无攻击利用，导致敏感操作越权执行。该研究首次系统性地定义并自动发现该问题，对LLM智能体平台和技能开发者具有直接警示意义。

🎯 建议动作: 对内部使用的或即将上架的智能体技能，评估是否可能存在规范违反，并考虑采用类似Sefz的语义模糊测试工具进行排查；技能开发者应严格定义护栏的语义并确保实现一致。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#specification-violation

No Attack Required: Semantic Fuzzing for Specification Violations in Agent Skills