#third-party-skills 主题 - Cyber Security Daily Radar

👥 作者: Haomin Zhuang, Hanwen Xing, Yujun Zhou, Yuchen Ma, Yue Huang, Yili Shen, Yufei Han, Xiangliang Zhang

本文针对大型语言模型（LLM）智能体在使用第三方技能时面临的运行时信任失效问题展开研究。第三方技能将自然语言指令、辅助脚本、模板、文档和服务配置打包成可复用的工作流，极大提升了智能体的能力，但也引入了新的安全风险：恶意技能无需直接要求模型执行明显有害的操作，而是将有害行为伪装成常规工作流的一部分，利用智能体拥有高价值权限且人类监督有限的特点，在运行时执行恶意操作。为评估智能体在利用第三方技能的同时抵御恶意运行时行为的能力，作者提出了动态基准测试框架AgentTrap。AgentTrap包含141个任务，其中91个恶意任务和50个良性实用任务，覆盖基于智能体技能供应链威胁的16个安全影响维度。在每个任务中，智能体接收普通用户请求，运行可能包含恶意工作流元素的已安装技能，并在沙箱环境中执行。AgentTrap通过完整轨迹判断攻击成功、被阻止或拒绝、未触发攻击以及无攻击证据四种结果。核心发现是：最具信息量的失败并非简单的越狱，模型往往在完成可见用户任务的同时，将技能引入的不安全副作用视为正常工作流的一部分。这凸显了对用户实际委托工作的具体模型-框架-工作空间环境进行运行时评估的必要性。论文提供了代码和数据集。

💡 推荐理由: 揭示了LLM智能体安全评估中一个被忽视的关键维度：恶意技能通过伪装工作流实现运行时信任失效，而非直接越狱。对构建安全的智能体生态系统有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#third-party-skills

AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills