这篇论文提出了一种新的方法来评估大型语言模型(LLM)在面对红队攻击时的鲁棒性。传统的评估方法通常只使用攻击成功率(ASR)这一单一指标,将多次攻击简化为一个二元结果,忽略了模型在攻击过程中如何逐步抵抗或屈服的结构化行为。作者创新性地将过程挖掘(process mining)技术应用于红队攻击追踪数据,从事件日志中提取并分析过程模型。实验设计包含60个来自HarmBench的提示词,针对两个LLM(GPT-OSS 120B和Llama 3.3 70B),使用10种提示词变异策略,每个提示最多尝试110次,共生成8,575个带分数的事件。通过提取直接跟随图(DFGs)和状态转移矩阵,论文揭示了传统ASR无法捕捉的结构性防御差异:GPT-OSS表现出近似吸收的拒绝状态(一旦拒绝几乎不再被攻破),而Llama则显示出多个从拒绝状态成功越狱的渗透路径。此外,实验还发现变异器的有效性在模型间呈现不对称性,且不同模型的时间-越狱分布相差一个数量级。这项研究提供了更深入理解LLM安全行为的方法,适合AI安全研究人员、红队评估人员以及LLM安全开发人员阅读。
💡 推荐理由: 传统的攻击成功率指标失于粗糙,过程挖掘方法能揭示模型防御行为的深层结构,帮助安全团队发现不同模型在对抗攻击中的薄弱环节,从而设计更针对性的防御策略。
🎯 建议动作: 研究跟进