#owasp-llm-top-10 主题 - Cyber Security Daily Radar

👥 作者: Alexandre Cristovão Maiorano

本研究针对大型语言模型（LLM）应用中的多层级防御组合，提出了一种归因分析方法，以量化每种防御家族具体阻断哪些OWASP LLM Top 10威胁。现有基准测试仅报告单一聚合覆盖率，无法区分不同防御组件的贡献。本文在21个攻击代理基线基础上，新增4个针对OWASP LLM Top 10的攻击代理，并构建了四种合成LLM端点：L0（无防御）、L1（仅拒绝过滤）、L2（仅预算控制）、L3（全栈防御）。L1和L2为单轴消融，互不包含；L3组合了拒绝过滤、预算控制、工具注册认证和凭证清理。通过10次重复实验，发现拒绝过滤单独消除了所有LLM01（越狱）和LLM07（系统提示泄露）发现；预算控制通过终止多步序列消除了所有LLM02（敏感信息泄露）和LLM10（无限消耗）发现；而LLM06（过度授权）需要全栈防御才能消除。进一步测试变体攻击下的脆弱性：使用300个Gemini生成的改写样本（基于60个模板的5次变体），L1拒绝拦截率在LLM01上下降15个百分点，在LLM07上下降25个百分点。对于真实后端L4-real（Gemini-2.5-flash配合同等正则防御），结果与L1完全一致，表明正则过滤贡献了全部防御效果，未观察到对齐额外贡献。预算控制则不受改写的任何影响（扣除速率下限后下降0个百分点）。结论：拒绝白名单在静态基准测试中有效，但可被LLM驱动的改写器轻松绕过而不改变攻击意图；预算控制对此类变异具有鲁棒性。

💡 推荐理由: 该研究首次归因了不同LLM防御组件对OWASP Top 10威胁的具体覆盖范围，并揭示了拒绝过滤在改写攻击下的脆弱性，为安全团队设计防御组合、评估真实鲁棒性提供了可操作的测量框架。

🎯 建议动作: 研究跟进，评估自身LLM防御栈的归因覆盖与改写鲁棒性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#owasp-llm-top-10

Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing