#capability-boundaries 主题 - Cyber Security Daily Radar

👥 作者: Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng

本文系统性地研究了LLM应用程序（LLM apps）因能力边界模糊而引发的安全风险。作者首先定义了“LLM应用能力空间”的概念，用于描述应用从LLM继承的功能范围。随后，他们揭示了两种新的风险类型：能力降级（capability downgrade）——应用被诱导执行低于其宣称能力水平的任务，以及能力升级（capability upgrade）——应用被利用执行超出其设计意图的恶意操作。为了评估这些风险，作者设计并实现了LLMApp-Eval框架，该框架能够自动化评估应用能力边界并检测潜在滥用。研究团队从4个主流平台（如GPT Store、Coze等）收集了应用元数据，并针对199个热门应用和6个开源LLM进行了实验。结果发现，178个（89.45%）应用存在潜在风险，涉及超过15个场景的恶意任务执行能力；其中17个应用甚至无需任何对抗性改写就能直接执行恶意任务。此外，实验还发现提示设计的质量与应用鲁棒性呈正相关：精心设计的提示能增强安全性，而糟糕的设计则会助长滥用。该工作为LLM应用生态的安全治理提供了新的视角和方法论。

💡 推荐理由: 随着LLM应用爆发式增长，传统越狱攻击之外的能力边界风险尚未被充分认识。本文首次系统定义了能力降级与升级风险，揭示了大量应用可被直接利用执行恶意任务，为蓝队构建针对性检测与防护策略提供了关键理论基础。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#capability-boundaries

Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries.