#tool-augmented-llm 主题 - Cyber Security Daily Radar

👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型（LLM）代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面（如工具输出）并报告一个固定的攻击成功率（ASR），但作者指出工具描述（tool descriptions）是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述，攻击者同样可以在此处植入恶意指令。为了验证这一假设，作者保持注入载荷（payload）字节级一致，通过工具输出和工具描述两个表面，在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现，相同的payload在不同模型上的成功率呈现出镜像反转模式：例如，GPT-4.1在工具输出表面具有96%的成功率，但在工具描述表面仅为4%；而Gemini 3 Flash则相反，分别为20%和98%。方差分解显示，攻击表面的独立贡献为0%，而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道，而是模型-表面的配对属性。为此，作者提出了自适应攻击率（Adaptive Attack Rate, AAR），即取所有表面上每个模型-任务的最高成功率，平均比最强固定表面基线高出9.1个百分点。进一步实验发现，标准的提示级防御（如过滤、指令对抗）继承了同样的盲点：它们能将工具输出表面的ASR降至10-18%，但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见，强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设，指出安全评估必须覆盖所有攻击表面（如工具描述），否则将严重低估风险。对于构建LLM代理的团队，这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估，要求安全测试覆盖工具输出和工具描述两个攻击表面；重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#tool-augmented-llm

The Surface You Test Is Not the Surface That Breaks