该论文提出了 AgentSecBench,一个用于系统性评估大型语言模型(LLM)代理安全性的实证基准框架。LLM 代理在处理可信指令、检索记录和工具观测时,所有信息均通过同一个生成通道,导致数据流与权限混淆:即使应用策略未授权,不受信任的字符串也可能影响包含机密的响应或操作提议。AgentSecBench 基于一个形式化安全框架,定义了三个安全博弈:指令完整性、检索机密性和能力完整性,统一在“意图到执行无干扰”概念下,并允许特定的可泄露信息。该框架将应用策略表示为对授权观测和能力的投影,区分提示标注与强制投影,并衡量对抗优势以及防御是否在生成前关闭相关的模型可见通道。实验采用了精确标记(exact-marker)的方法,作为博弈的一种可观测实例,而非完整的语义安全声明,测试了泄露和禁止动作区分器,具有明确的真值基准。作者使用 Qwen3-0.6B 和 Qwen3-1.7B 模型,对六类防御方法进行了配对对抗性和良性控制执行实验。测量结果表明,当通道关闭时风险降低,但模型可见的对抗能力在某些情况下仍然可利用。最终成果是一种面向安全的评估方法:提示文本可以描述边界,而来源投影、能力限制和输出验证可以强制实施边界。该研究为 LLM 代理的安全评估提供了可量化的方法论,适合安全研究人员和 LLM 应用开发者阅读。
💡 推荐理由: LLM代理在实际应用中面临提示注入、隐私泄露和工具滥用等严重威胁,现有评估缺乏统一框架。AgentSecBench提供了可量化的安全评估方法论,能帮助防御者识别代理系统的薄弱环节,推动更安全的代理设计。
🎯 建议动作: 研究跟进