#benchmark-audit 主题 - Cyber Security Daily Radar

👥 作者: Karthik Raghu Iyer, Yazdan Jamshidi, Nicholas Bray, Alexey A. Shvets

本文提出一个可复用的框架，用于审计LLM攻击基准测试对威胁表面的覆盖度。作者从932篇2023-2026年的arXiv安全研究中提取了507个叶节点（其中401个有数据填充，106个来自威胁模型推导）的推理时攻击分类法，并基于STRIDE模型构建了一个4×6的Target×Technique矩阵。该矩阵支持基准外部验证——审计集体覆盖度而非单个基准的一致性。将其应用于六个公开基准（HarmBench、InjecAgent、AgentDojo等）后发现，这三个主要基准占据的非重叠单元格最多只覆盖矩阵的25%，而整个STRIDE威胁类别（如服务中断、模型内部）缺乏任何标准化评估——尽管已发表的攻击在这些类别中实现了46倍令牌放大和96%的攻击成功率，且机制未被任何基准测试。此外，作者从2521个独特攻击组中观察到命名碎片化严重（单个攻击最多有29种表面形式），且攻击集中在安全与对齐绕过类别中，这些结构特性在小规模下无法显现。分类法、攻击记录和覆盖图作为可扩展工件发布，使后续基准可映射到同一矩阵，便于社区追踪评估缺口是否缩小。本文适合关注LLM安全评估、基准设计、攻击分类的从业者和研究者阅读。

💡 推荐理由: 揭示了当前主流LLM攻击基准（如HarmBench）存在严重覆盖盲区，威胁模型不完整，可能导致安全评估漏报；提供的框架可帮助社区系统性地发现和追踪评估缺口。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#benchmark-audit

Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks