#owasp-llm-top-10

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Alexandre Cristovão Maiorano

本研究针对大型语言模型(LLM)应用中的多层级防御组合,提出了一种归因分析方法,以量化每种防御家族具体阻断哪些OWASP LLM Top 10威胁。现有基准测试仅报告单一聚合覆盖率,无法区分不同防御组件的贡献。本文在21个攻击代理基线基础上,新增4个针对OWASP LLM Top 10的攻击代理,并构建了四种合成LLM端点:L0(无防御)、L1(仅拒绝过滤)、L2(仅预算控制)、L3(全栈防御)。L1和L2为单轴消融,互不包含;L3组合了拒绝过滤、预算控制、工具注册认证和凭证清理。通过10次重复实验,发现拒绝过滤单独消除了所有LLM01(越狱)和LLM07(系统提示泄露)发现;预算控制通过终止多步序列消除了所有LLM02(敏感信息泄露)和LLM10(无限消耗)发现;而LLM06(过度授权)需要全栈防御才能消除。进一步测试变体攻击下的脆弱性:使用300个Gemini生成的改写样本(基于60个模板的5次变体),L1拒绝拦截率在LLM01上下降15个百分点,在LLM07上下降25个百分点。对于真实后端L4-real(Gemini-2.5-flash配合同等正则防御),结果与L1完全一致,表明正则过滤贡献了全部防御效果,未观察到对齐额外贡献。预算控制则不受改写的任何影响(扣除速率下限后下降0个百分点)。结论:拒绝白名单在静态基准测试中有效,但可被LLM驱动的改写器轻松绕过而不改变攻击意图;预算控制对此类变异具有鲁棒性。

💡 推荐理由: 该研究首次归因了不同LLM防御组件对OWASP Top 10威胁的具体覆盖范围,并揭示了拒绝过滤在改写攻击下的脆弱性,为安全团队设计防御组合、评估真实鲁棒性提供了可操作的测量框架。

🎯 建议动作: 研究跟进,评估自身LLM防御栈的归因覆盖与改写鲁棒性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)