#tool-selection

共收录 2 条相关安全情报。

👥 作者: Shiyang Chen

该论文研究了大型语言模型（LLM）智能体在工具选择过程中的失败机制。通常认为，模型在工具集中未能注意到正确工具是导致错误选择的原因，但论文通过注意力片段分析提出了相反的观点：模型在80%的情况下正确关注到了正确的工具，但依然做出了错误选择。作者通过三种实验验证了这一结论：1）输入侧修复（如重新排序或复制正确工具）仅能恢复不超过23%的失败，而读出侧干预可恢复59-91%；2）两种不同表征的读出侧干预（注意力对数偏置和残差流引导向量）在恢复失败任务上高度一致（Jaccard系数0.865），表明瓶颈位于读出阶段；3）提出一种无需训练、无真实标签的选择器，基于每个候选工具的注意力片段，在BFCL和Seal-Tools基准上分别提升+11.9和+14.9个百分点的函数选择准确率。实验覆盖了3B-32B参数的多个模型，证明了注意力-选择分离现象的普遍性。该工作揭示了智能体工具调用中的关键认知瓶颈，并提供了可部署的改进方案。

💡 推荐理由: 该研究直接挑战了LLM智能体工具选择失败的常见解释，揭示了注意力与决策之间的分离现象，为开发更可靠的工具调用机制提供了理论基础。安全工程师可据此改进智能体行为监控与失败分析。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001

本研究聚焦于大语言模型（LLM）代理中的工具选择机制面临的提示注入攻击威胁。LLM代理通常通过调用外部工具来扩展其能力，例如搜索引擎、计算器或数据库查询。工具选择是代理根据用户指令和上下文自动决定调用哪个工具的关键步骤。研究者发现，攻击者可以通过精心构造的提示，操纵代理选择恶意工具或绕过安全限制，从而引发数据泄露、权限滥用等风险。论文系统性地分析了这类攻击的原理，提出了一种基于对抗性提示的威胁模型，并设计了多组实验验证攻击的可行性和影响。实验表明，当前主流LLM代理（如基于GPT-4、LLaMA等）的工具选择模块在面临针对性提示注入时表现出脆弱性。作者进一步讨论了防御策略，包括输入净化、上下文隔离和工具使用权限最小化等。该研究揭示了LLM代理安全性的新维度，为开发更健壮的代理系统提供了理论基础和实用建议。适合AI安全研究员、LLM应用开发者及安全工程师阅读。

💡 推荐理由: 随着LLM代理广泛应用，工具选择环节的安全隐患可能成为攻击者控制代理行为的突破口，导致敏感数据泄露或恶意操作。本研究率先系统性分析该威胁，对防御策略设计具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#tool-selection

Looking Is Not Picking: An Attention-Segment Account of Tool-Selection Failures in LLM Agents

Prompt Injection Attack to Tool Selection in LLM Agents.