#tool-augmented-llm

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型(LLM)代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面(如工具输出)并报告一个固定的攻击成功率(ASR),但作者指出工具描述(tool descriptions)是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述,攻击者同样可以在此处植入恶意指令。为了验证这一假设,作者保持注入载荷(payload)字节级一致,通过工具输出和工具描述两个表面,在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现,相同的payload在不同模型上的成功率呈现出镜像反转模式:例如,GPT-4.1在工具输出表面具有96%的成功率,但在工具描述表面仅为4%;而Gemini 3 Flash则相反,分别为20%和98%。方差分解显示,攻击表面的独立贡献为0%,而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道,而是模型-表面的配对属性。为此,作者提出了自适应攻击率(Adaptive Attack Rate, AAR),即取所有表面上每个模型-任务的最高成功率,平均比最强固定表面基线高出9.1个百分点。进一步实验发现,标准的提示级防御(如过滤、指令对抗)继承了同样的盲点:它们能将工具输出表面的ASR降至10-18%,但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见,强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设,指出安全评估必须覆盖所有攻击表面(如工具描述),否则将严重低估风险。对于构建LLM代理的团队,这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估,要求安全测试覆盖工具输出和工具描述两个攻击表面;重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)