推荐 8.5
Conf: 50%
现有针对语言模型在恶意代码生成任务上的拒绝行为评测基准,常常将“请求生成可执行恶意软件”与“请求有害安全知识”混为一谈。这种混淆会导致两种请求类型在安全对齐模型中触发不同的拒绝路径,而基于混合提示计算出的单一拒绝率无法单独衡量任何一类。本文引入了一个“武器”与“知识”的分类轴,并通过一个五模型共识协议将其操作化。作者从四个公开基准中提取了3,133条提示,利用五个大语言模型裁判(来自Anthropic、OpenAI、Google、智谱AI、阿里巴巴四家厂商)进行三个投票过半数判决,最终得到1,554条共识为“武器”(CODE)的提示库(主要发布成果),以及388条共识为“知识”(KNOWLEDGE)的比较集。整个流程的裁判间信度由Fleiss' Kappa衡量,在3,133条提示上达到0.876(95%置信区间[0.862,0.888]),属于Landis & Koch标准中的“几乎完全一致”,其中69.3%的提示为五裁判全票一致。所有3,133条提示均满足了3/5多数阈值,因此共识流程未产生任何模糊排除的提示。本文的贡献在于提供了信度有据可查的标注数据集,并论证了“武器”与“知识”区分作为代码安全评测组织轴的重要性,而该分类轴能否实际分离模型行为则留给配套的基准论文去验证。对于安全从业者而言,该数据集可用于评估自家LLM在恶意代码生成场景下的拒绝行为,避免将安全知识请求误判为武器生成请求。
💡 推荐理由: 本文提供了一个经过严格共识标注的提示库,能帮助安全团队精确区分LLM是生成恶意代码还是提供安全知识,从而更准确地评估和修补模型的安全拒绝机制。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)