本文是一篇系统综述,聚焦于2023年至2025年间公开的13个用于评估大型语言模型(LLM)在恶意代码任务中拒绝能力的提示语料库。这些语料库包括AdvBench、CyberSecEval系列、RMCBench、RedCode、MCGMark、JailbreakBench、CySecBench、MalwareBench、CIRCLE、MOCHA、ASTRA、Scam2Prompt/Innoc2Scam-bench和JAWS-Bench。每个语料库均采用不同协议构建、不同许可条款发布,并依据不同评分者间信度标准进行验证(或未验证)。现有综述通常以代码安全、越狱分类或漏洞检测为核心对象,仅简要提及这些语料库。本文则逆转这一框架,将提示数据集本身作为分析单元。作者遵循PRISMA-style协议,制定搜索策略,筛选编码LLM拒绝评估相关近期文献,对每个符合条件的语料库应用统一提取模板,并从构建方法、提示构建分类法(模态、轮次结构、诱导风格)、可复现性与许可、恶意软件类别覆盖等方面进行综合。综合结果揭示了三个反复出现的方法论缺陷:缺乏人类标注者基线以校准LLM评判标签;缺乏跨语料库可比性,因为拒绝率统计量测量的是不等价的构念;恶意软件类别分类法碎片化,缺少能覆盖全部13个语料库的规范模式。综述最后提出下一代语料库的方法论方向,包括预注册纳入标准、供应商多样化的多评判者验证、以Fleiss' kappa和自助法置信区间作为信度基线,以及一个候选规范分类法。本文适合LLM安全评估、红队测试、以及提示工程领域的研究者阅读。
💡 推荐理由: 本文首次系统梳理了13个恶意代码提示语料库,揭示了评估LLM拒绝能力时的关键方法论缺陷,为构建更可靠、可比较的安全评估基准提供了明确方向。
🎯 建议动作: 研究跟进