#skill-injection

共收录 2 条相关安全情报。

👥 作者: Tianhao Chen, Zhengyuan Jiang, Yuepeng Hu, Yebei Gou, Neil Zhenqiang Gong

该论文研究了一种针对智能体AI（Agentic AI）的新攻击面——动态恶意技能（Dynamic Malicious Skills）。技能是智能体AI的核心组成部分，通过自然语言文档（如SKILL.md）定义，允许代理动态加载和执行代码。攻击者可以在这些文档中嵌入恶意指令，诱导智能体在运行时将恶意逻辑注入到原本良性的技能中，从而绕过传统的静态安全检测。作者在OpenHands和Claude Code等主流智能体框架上评估了该攻击，实验表明动态恶意技能能够以较高的成功率引入多种恶意行为，包括数据泄露、权限提升和拒绝服务。为了防御，论文提出了一种系统级防护方案：利用操作系统内核强制实现的只读挂载（read-only mounts）来阻止技能的动态修改。评估显示该防御能有效阻断动态恶意技能，同时不影响良性技能的正常功能。该工作揭示了技能机制中存在的安全隐患，为智能体AI安全提供了新的研究方向和防御思路。适合关注AI安全、智能体系统安全的研究人员和工程人员阅读。

💡 推荐理由: 首次系统性地提出并演示了针对智能体技能机制的动态注入攻击，揭示了当前技能文件缺失运行时完整性验证的严重风险，对OpenHands、Claude Code等主流框架具有普遍威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yoshinari Fujinuma, Varun Gangal, Traian Rebedea, Makesh Narasimhan Sreedhar, Prasoon Varshney, Rebecca Qian, Anand Kannappan

该论文研究了大语言模型（LLM）代理在依赖可复用技能（即描述任务特定流程的文档）时面临的新安全威胁，并探索了两种互补的防御方向。首先，作者评估了基于守护者的防御机制：动态守护者作为一个中间LLM代理，在运行时对技能文件的访问进行实时调解；静态守护者则在构建时预先重写技能文件以移除潜在恶意内容。在三个不同的LLM代理系列上进行的实验表明，这两种守护者均能将攻击成功率（ASR）降低超过一半，同时保持任务效用。其次，作者通过攻击重述（attack reframing）技术对守护者进行压力测试，使用了四种保留恶意指令但改变措辞的攻击变体。在没有守护者的情况下，重述攻击将ASR提升至81.4%，但动态守护者将其降至18.6%，证明了实时调解作为稳健防御的有效性。该研究揭示了LLM代理安全中技能注入攻击的威胁，并提供了实用的防御方案。

💡 推荐理由: LLM代理广泛采用可复用技能，但技能文件的安全风险常被忽视。本文提出的守护者机制为防御此类攻击提供了直接可行的方案，对开发安全代理系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#skill-injection

Dynamic Malicious Skills in Agentic AI

Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents