推荐 5.5
Conf: 50%
本文提出一个可复用的框架,用于审计LLM攻击基准测试对威胁表面的覆盖度。作者从932篇2023-2026年的arXiv安全研究中提取了507个叶节点(其中401个有数据填充,106个来自威胁模型推导)的推理时攻击分类法,并基于STRIDE模型构建了一个4×6的Target×Technique矩阵。该矩阵支持基准外部验证——审计集体覆盖度而非单个基准的一致性。将其应用于六个公开基准(HarmBench、InjecAgent、AgentDojo等)后发现,这三个主要基准占据的非重叠单元格最多只覆盖矩阵的25%,而整个STRIDE威胁类别(如服务中断、模型内部)缺乏任何标准化评估——尽管已发表的攻击在这些类别中实现了46倍令牌放大和96%的攻击成功率,且机制未被任何基准测试。此外,作者从2521个独特攻击组中观察到命名碎片化严重(单个攻击最多有29种表面形式),且攻击集中在安全与对齐绕过类别中,这些结构特性在小规模下无法显现。分类法、攻击记录和覆盖图作为可扩展工件发布,使后续基准可映射到同一矩阵,便于社区追踪评估缺口是否缩小。本文适合关注LLM安全评估、基准设计、攻击分类的从业者和研究者阅读。
💡 推荐理由: 揭示了当前主流LLM攻击基准(如HarmBench)存在严重覆盖盲区,威胁模型不完整,可能导致安全评估漏报;提供的框架可帮助社区系统性地发现和追踪评估缺口。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)