#stochasticity 主题 - Cyber Security Daily Radar

👥 作者: Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

该论文揭示了当前大型语言模型（LLM）越狱攻击评估中的关键问题：攻击成功率（ASR）作为主要基准指标存在不稳定性。作者观察到，即使一篇顶级论文（如来自Anthropic的BoN或Microsoft Research的Crescendo）宣称在闭源模型上达到80%的ASR，但实际复现时，针对同一目标模型生成的越狱提示在10次尝试中仅能连续成功5次（50%），远低于宣称值。这导致发表论文中的ASR数字被系统性高估且无法跨论文比较。核心研究问题为：为何一个成功的越狱提示在目标模型上无法稳定复现？为回答该问题，作者系统研究了随机性在攻击评估和攻击生成两个阶段的影响，涵盖多种越狱攻击、不同规模和供应商的模型以及多种评估器（judge）。基于此，他们提出了一个新指标和两个框架：（1）CAS-eval（一致性攻击成功率评估框架），要求越狱提示在多次尝试中持续成功，实验表明采用该评估后ASR可下降多达30个百分点；（2）CAS-gen（一致性攻击生成框架），通过改进现有越狱方法，帮助恢复这30个百分点的性能损失。该研究对LLM安全评估标准和方法论有重要贡献，提醒从业者ASR作为单一指标的局限性，并提供了更稳健的评估与生成方案。适合LLM安全研究人员、红蓝队工程师以及评估基准设计者阅读。

💡 推荐理由: 揭示了LLM越狱攻击评估中ASR指标的系统性缺陷，并提供了可落地的评估与生成改进框架，有助于提高安全测试的真实性和可复现性。

🎯 建议动作: 研究跟进，将CAS-eval和CAS-gen方法纳入内部LLM安全评估流程

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#stochasticity

The Great Pretender: A Stochasticity Problem in LLM Jailbreak