#skill-injection

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yoshinari Fujinuma, Varun Gangal, Traian Rebedea, Makesh Narasimhan Sreedhar, Prasoon Varshney, Rebecca Qian, Anand Kannappan

该论文研究了大语言模型(LLM)代理在依赖可复用技能(即描述任务特定流程的文档)时面临的新安全威胁,并探索了两种互补的防御方向。首先,作者评估了基于守护者的防御机制:动态守护者作为一个中间LLM代理,在运行时对技能文件的访问进行实时调解;静态守护者则在构建时预先重写技能文件以移除潜在恶意内容。在三个不同的LLM代理系列上进行的实验表明,这两种守护者均能将攻击成功率(ASR)降低超过一半,同时保持任务效用。其次,作者通过攻击重述(attack reframing)技术对守护者进行压力测试,使用了四种保留恶意指令但改变措辞的攻击变体。在没有守护者的情况下,重述攻击将ASR提升至81.4%,但动态守护者将其降至18.6%,证明了实时调解作为稳健防御的有效性。该研究揭示了LLM代理安全中技能注入攻击的威胁,并提供了实用的防御方案。

💡 推荐理由: LLM代理广泛采用可复用技能,但技能文件的安全风险常被忽视。本文提出的守护者机制为防御此类攻击提供了直接可行的方案,对开发安全代理系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)