#compute-aware-evaluation 主题 - Cyber Security Daily Radar

👥 作者: Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel

本文提出了一种基于计算压力的对抗鲁棒性评估框架，用于衡量大型语言模型（LLM）在对抗性攻击下的实际安全性。传统的评估方法通常以固定查询预算下的攻击成功率（ASR）作为指标，忽略了不同攻击策略在计算开销上的巨大差异（可能相差数个数量级）。为解决这一问题，作者引入累积浮点运算次数（FLOPs）作为攻击成本的代理，提出了风险-计算曲线（risk-compute curves），将计算预算映射到攻击风险，并推导出两个总结指标来量化攻击成功所需的平均压力。在10个不同模型（涵盖3个模型系列、4个训练和对齐阶段）上，使用三种攻击策略（基于梯度的、迭代细化的、基于模板的）对两个越狱鲁棒性基准进行了评估。主要发现包括：（1）对齐训练在计算空间鲁棒性上表现出非单调效应；（2）增大模型规模能降低基于梯度的攻击有效性，但对成本更低的模板攻击影响有限；（3）基于梯度的攻击在代理模型上优化后可迁移到另一个目标模型，从而降低攻击者成本；（4）在单个模型内，不同危害类别的计算成本差异可达约5倍；（5）安全对齐的强化学习增加了总体成本，但使某些类别不成比例地更容易被攻击。作者开源了该框架以支持计算感知的风险评估。

💡 推荐理由: 为LLM对抗鲁棒性评估引入了计算成本维度，使安全从业者能更真实地衡量攻击的实际可行性，指导防御资源分配。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#compute-aware-evaluation

Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models