#capability-boundaries

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng

本文系统性地研究了LLM应用程序(LLM apps)因能力边界模糊而引发的安全风险。作者首先定义了“LLM应用能力空间”的概念,用于描述应用从LLM继承的功能范围。随后,他们揭示了两种新的风险类型:能力降级(capability downgrade)——应用被诱导执行低于其宣称能力水平的任务,以及能力升级(capability upgrade)——应用被利用执行超出其设计意图的恶意操作。为了评估这些风险,作者设计并实现了LLMApp-Eval框架,该框架能够自动化评估应用能力边界并检测潜在滥用。研究团队从4个主流平台(如GPT Store、Coze等)收集了应用元数据,并针对199个热门应用和6个开源LLM进行了实验。结果发现,178个(89.45%)应用存在潜在风险,涉及超过15个场景的恶意任务执行能力;其中17个应用甚至无需任何对抗性改写就能直接执行恶意任务。此外,实验还发现提示设计的质量与应用鲁棒性呈正相关:精心设计的提示能增强安全性,而糟糕的设计则会助长滥用。该工作为LLM应用生态的安全治理提供了新的视角和方法论。

💡 推荐理由: 随着LLM应用爆发式增长,传统越狱攻击之外的能力边界风险尚未被充分认识。本文首次系统定义了能力降级与升级风险,揭示了大量应用可被直接利用执行恶意任务,为蓝队构建针对性检测与防护策略提供了关键理论基础。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)