#input-diversity

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yuhang Jiang, Xiaojing Chen

本文揭示了在基于迁移的对抗攻击中,输入多样性(Input Diversity, DI)这一常用技巧对攻击迁移性的影响存在非单调的“剪刀效应”。DI通过在每次攻击迭代中对输入图像进行随机缩放和填充来增强攻击的鲁棒性,通常被认为能普遍提高迁移成功率。然而,作者发现这一假设依赖于目标模型的类型:对于标准训练的代理模型,增加DI概率确实提升迁移成功率;但对于经过鲁棒训练的代理模型,DI反而显著降低迁移成功率,两者的响应曲线像剪刀一样分离。在ImageNet数据集上,盲目使用DI导致针对CNN、ViT、Swin和ConvNeXt等目标模型,以及2018至2024年间十种攻击的平均攻击成功率下降10.3%。在CIFAR-10上该效应较弱,除非DI强度较大。通过控制鲁棒性强度的实验表明,这种损害是渐进的而非二元的,在弱鲁棒性区域就已出现转折。作者将原因追溯到梯度几何:通过缩放/平移分解,约67%的损害归因于缩放操作;直接测量源-目标梯度对齐发现,相同缩放操作对标准代理改善对齐,对鲁棒代理则恶化对齐。作者提出局部梯度一致性(Local Gradient Consistency, LGC)指标来区分两种代理类型,并证明了一个偏差-方差交叉定理,隔离了DI有益的区间与缩放偏差占主导的区间。最后,提出无需重新训练的策略CG-DI,即当LGC高时禁用DI,从而保留标准代理上DI的益处并避免鲁棒代理上的损失。这项工作将剪刀效应定位为更广泛的鲁棒性-迁移性权衡在DI上的具体表现。

💡 推荐理由: 对抗攻击的迁移性是评估防御鲁棒性的关键指标。本文发现广泛使用的输入多样性技巧在鲁棒模型上反而有害,这一反直觉结果将影响攻击评估和防御设计的实践,值得安全研究人员重新审视攻击算法的默认设置。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)