#model-robustness

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin 0001

该论文深入研究了深度神经网络(DNN)中对抗样本的可迁移性问题。传统的对抗样本攻击中,攻击者使用白盒替代模型生成对抗样本,这些样本能够欺骗其他不同架构的黑盒模型。尽管已有大量实证研究提供了生成高可迁移性对抗样本的指导,但许多发现缺乏理论解释,甚至给出矛盾的建议。本文聚焦于替代模型的特性,从“微鲁棒性”(little robustness)现象出发——即用轻微扰动对抗样本进行对抗训练的模型反而能作为更好的替代模型来发起迁移攻击。作者将此归因于模型平滑度(model smoothness)和梯度相似性(gradient similarity)之间的权衡,并强调两者对可迁移性的联合效应,而非单独影响。通过理论分析和实证研究,他们假设对抗训练中由离流形(off-manifold)样本引起的数据分布偏移是损害梯度相似性的原因。基于此,进一步探讨了常见数据增强和梯度正则化对可迁移性的影响,分析了不同训练方法中权衡的表现,构建了可迁移性调节机制的综合蓝图。最后,提出一种通用路线来构建优质替代模型以提升可迁移性,即同时优化模型平滑度和梯度相似性,例如结合输入梯度正则化和锐度感知最小化(SAM),并通过大量实验验证。总结来说,论文呼吁关注这两个因素对发起有效迁移攻击的联合影响,而非单独优化其中一个,并强调操纵替代模型的关键作用。适合从事对抗机器学习、模型鲁棒性研究的学者和工程师阅读。

💡 推荐理由: 解释长期存在的‘微鲁棒性’现象,提供理论框架指导构建更强迁移攻击的替代模型,对防御方理解攻击机理和设计鲁棒模型有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)