#compositional-risk

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Su Wang, Pin Qian, Yihang Chen, Junxian You, Xiaoyuan Wang, Xiaochong Jiang, Lifei Liu, Haoran Yu, Jingzhou Xu

该论文研究了LLM代理系统中一个核心安全问题:即使每个独立的技能(skill)本身是安全的,将它们组合成技能集(skill set)后是否可能产生不安全的行为。作者提出了SkillReact框架,这是一个组合安全测量框架,包含三个部分:确定性静态组合基准、双评估者LLM辅助人工裁决管线、以及基于动作的可利用性测试工具。研究基于ClawHub上的1520个技能,其中651个通过了单独安全检查,形成了211,575个技能对。静态基准标记了22.25%的技能对为结构候选风险。通过分层审计,发现约五分之一的被标记对是真实的组合风险,人口加权有效性为18.2%,意味着该注册表中约有1.4万个真实风险成员在单技能扫描中被遗漏。进一步的基于动作的测试揭示了风险实现取决于宿主模型的倾向:在特定条件下,Haiku-4-5在所有39次直接提示试验中发布了丢弃阶段工具调用(其中36次是完整的下载-执行链),Opus-4-7在下载处停止,而Sonnet-4-6直接拒绝。控制实验表明,没有安装技能时合规性最高。这些结果证明了安装时组合检查和能力隔离的必要性,作为单技能扫描的补充。

💡 推荐理由: 揭示了LLM代理生态系统中被忽视的组合安全风险,提醒安全从业者即使单个技能安全,技能组合也可能导致恶意行为链,需要全新的防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)