#third-party-skills

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Haomin Zhuang, Hanwen Xing, Yujun Zhou, Yuchen Ma, Yue Huang, Yili Shen, Yufei Han, Xiangliang Zhang

本文针对大型语言模型(LLM)智能体在使用第三方技能时面临的运行时信任失效问题展开研究。第三方技能将自然语言指令、辅助脚本、模板、文档和服务配置打包成可复用的工作流,极大提升了智能体的能力,但也引入了新的安全风险:恶意技能无需直接要求模型执行明显有害的操作,而是将有害行为伪装成常规工作流的一部分,利用智能体拥有高价值权限且人类监督有限的特点,在运行时执行恶意操作。为评估智能体在利用第三方技能的同时抵御恶意运行时行为的能力,作者提出了动态基准测试框架AgentTrap。AgentTrap包含141个任务,其中91个恶意任务和50个良性实用任务,覆盖基于智能体技能供应链威胁的16个安全影响维度。在每个任务中,智能体接收普通用户请求,运行可能包含恶意工作流元素的已安装技能,并在沙箱环境中执行。AgentTrap通过完整轨迹判断攻击成功、被阻止或拒绝、未触发攻击以及无攻击证据四种结果。核心发现是:最具信息量的失败并非简单的越狱,模型往往在完成可见用户任务的同时,将技能引入的不安全副作用视为正常工作流的一部分。这凸显了对用户实际委托工作的具体模型-框架-工作空间环境进行运行时评估的必要性。论文提供了代码和数据集。

💡 推荐理由: 揭示了LLM智能体安全评估中一个被忽视的关键维度:恶意技能通过伪装工作流实现运行时信任失效,而非直接越狱。对构建安全的智能体生态系统有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)