推荐 5.5
Conf: 50%
本文提出了一种基于计算压力的对抗鲁棒性评估框架,用于衡量大型语言模型(LLM)在对抗性攻击下的实际安全性。传统的评估方法通常以固定查询预算下的攻击成功率(ASR)作为指标,忽略了不同攻击策略在计算开销上的巨大差异(可能相差数个数量级)。为解决这一问题,作者引入累积浮点运算次数(FLOPs)作为攻击成本的代理,提出了风险-计算曲线(risk-compute curves),将计算预算映射到攻击风险,并推导出两个总结指标来量化攻击成功所需的平均压力。在10个不同模型(涵盖3个模型系列、4个训练和对齐阶段)上,使用三种攻击策略(基于梯度的、迭代细化的、基于模板的)对两个越狱鲁棒性基准进行了评估。主要发现包括:(1)对齐训练在计算空间鲁棒性上表现出非单调效应;(2)增大模型规模能降低基于梯度的攻击有效性,但对成本更低的模板攻击影响有限;(3)基于梯度的攻击在代理模型上优化后可迁移到另一个目标模型,从而降低攻击者成本;(4)在单个模型内,不同危害类别的计算成本差异可达约5倍;(5)安全对齐的强化学习增加了总体成本,但使某些类别不成比例地更容易被攻击。作者开源了该框架以支持计算感知的风险评估。
💡 推荐理由: 为LLM对抗鲁棒性评估引入了计算成本维度,使安全从业者能更真实地衡量攻击的实际可行性,指导防御资源分配。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)