#survival-analysis 主题 - Cyber Security Daily Radar

👥 作者: Zvi Topol

该论文提出了一种基于生存分析来量化大型语言模型（LLM）在重复攻击下安全性退化程度的新框架。现有的 LLM 越狱评估通常仅报告二元的成功/失败指标，无法捕捉在持续对抗压力下攻击如何随时间成功的动态过程。本文借鉴医学和可靠性工程中的生存分析方法，将“越狱时间”视为生存结局，从而能够估计风险函数、生存曲线以及与成功攻击相关的风险因素。作者从 HarmBench 数据集中选取了三个攻击类别的提示子集，对三个 LLM 进行了评估。分析表明，不同模型呈现出不同的漏洞特征：一个模型在迭代攻击下显示出快速退化，而另外两个模型则表现出持续的中等脆弱性。该框架为模型和 LLM 应用开发者提供了可操作的见解，并将生存分析确立为一种严格的 LLM 安全性评估方法。

💡 推荐理由: 该研究为 LLM 安全性评估引入了一种动态量化方法，能更准确地反映模型在持续攻击下的退化速度，有助于安全团队比较不同模型的抗攻击持久性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#survival-analysis

Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis