推荐 5.5
Conf: 50%
该论文揭示了当前大型语言模型(LLM)越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要基准指标存在不稳定性。作者观察到,即使一篇顶级论文(如来自Anthropic的BoN或Microsoft Research的Crescendo)宣称在闭源模型上达到80%的ASR,但实际复现时,针对同一目标模型生成的越狱提示在10次尝试中仅能连续成功5次(50%),远低于宣称值。这导致发表论文中的ASR数字被系统性高估且无法跨论文比较。核心研究问题为:为何一个成功的越狱提示在目标模型上无法稳定复现?为回答该问题,作者系统研究了随机性在攻击评估和攻击生成两个阶段的影响,涵盖多种越狱攻击、不同规模和供应商的模型以及多种评估器(judge)。基于此,他们提出了一个新指标和两个框架:(1)CAS-eval(一致性攻击成功率评估框架),要求越狱提示在多次尝试中持续成功,实验表明采用该评估后ASR可下降多达30个百分点;(2)CAS-gen(一致性攻击生成框架),通过改进现有越狱方法,帮助恢复这30个百分点的性能损失。该研究对LLM安全评估标准和方法论有重要贡献,提醒从业者ASR作为单一指标的局限性,并提供了更稳健的评估与生成方案。适合LLM安全研究人员、红蓝队工程师以及评估基准设计者阅读。
💡 推荐理由: 揭示了LLM越狱攻击评估中ASR指标的系统性缺陷,并提供了可落地的评估与生成改进框架,有助于提高安全测试的真实性和可复现性。
🎯 建议动作: 研究跟进,将CAS-eval和CAS-gen方法纳入内部LLM安全评估流程
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)