本文针对视觉 Transformer(ViT)在对抗攻击下的脆弱性展开系统研究。ViT 已成为现代视觉-语言模型的基础架构,但其对抗鲁棒性不足,需要专门的对抗训练(AT)策略。作者首先指出现有最先进的 AT 方法(如 Generalist 和 DBAT)与 ViT 存在显著不兼容性。接着,论文从互信息(MI)角度进行理论分析,证明在基于自编码器的自监督预训练中,对抗样本与其潜在表示之间的互信息应通过导出的 MI 界限进行约束。基于此洞察,作者提出一种自监督 AT 方法 MIMIR,该方法通过掩码图像建模和自编码器,引入互信息惩罚项来增强对抗预训练。在 CIFAR-10、Tiny-ImageNet 和 ImageNet-1K 上的大量实验表明,MIMIR 能够持续提升自然准确率和鲁棒准确率,在 ImageNet-1K 上全面超越现有最先进方法。此外,MIMIR 对未知攻击和常见损坏数据表现出卓越的鲁棒性,还能抵御完全知晓防御机制的自适应攻击。代码和训练模型已开源。本研究适合对抗机器学习、视觉安全领域的研究人员和工程师阅读。
💡 推荐理由: ViT 在视觉任务中广泛应用,但对抗鲁棒性不足。MIMIR 提供了一种新的自监督对抗训练范式,通过互信息约束显著提升了鲁棒性,且对未知攻击有效,具有重要实践价值。
🎯 建议动作: 研究跟进