本文提出 SafeClawBench,一个专门用于评估工具使用型大语言模型(LLM)代理安全性的分阶段基准测试。现有安全评估通常将所有失败模式合并为一个攻击成功率指标,难以区分模型仅是同意了攻击者意图,还是实际产生了可观察的损害。SafeClawBench 包含 600 个受控对抗任务,覆盖 6 种攻击家族:直接提示注入、间接提示注入、工具返回注入、记忆投毒、记忆提取和歧义驱动的非安全推理。与以往工作不同,该基准测试报告三个独立端点:语义攻击接受(模型是否在文本层面接受攻击意图)、审计可见危害证据(是否存在可通过日志审查追溯的损害证据)、沙箱观察到的工具/状态危害(在沙箱环境中观察到的实际工具调用或状态改变)。作者在 5 个代理端点和 4 种提示级别策略下进行评估,发现这些端点捕获了不同的失败模式。在没有额外提示保护的情况下,不同模型的语义失败率差异较大,从 9.0% 到 44.2% 不等。审计可见的危害证据范围比语义失败更窄,而在一个独立的可执行协议下,部分任务在通过语义检查后仍产生了沙箱危害:在 12000 行的匹配分析中,347 例沙箱危害中有 291 例来自语义检查通过的行。不同的提示策略会改变端点结果,但其效果依赖于模型和协议。SafeClawBench 提供了一个可重复的框架,用于比较代理模型和提示策略条件,而不会混淆文本合规性、证据支持的有害行为和可执行状态变化。开源数据集已发布在 Hugging Face 上。
💡 推荐理由: 该工作为 LLM 代理安全评估提供了更精细的分阶段指标,帮助防御者区分不同类型的失败,避免被单一攻击成功率误导,从而制定更有针对性的防护策略。
🎯 建议动作: 建议安全团队引入 SafeClawBench 框架,在评估 LLM 代理安全性时同时关注语义、审计和沙箱三个层面的失败模式,并据此调整提示保护策略。