#adversarial-training 主题 - Cyber Security Daily Radar

👥 作者: Mengnan Zhao, Lihe Zhang, Bo Wang, Tianhang Zheng, Hong Zhong, Geyong Min

本文针对快速对抗训练（FAT）中存在的两个核心问题展开研究：（1）灾难性过拟合（CO），即模型过度拟合训练时使用的对抗样本，导致对未见攻击泛化能力差；（2）鲁棒性与准确率之间的权衡，即在提高鲁棒性的同时往往导致干净样本上的性能显著下降，且随着扰动预算增加而加剧。作者首先通过将样本按置信度分组，系统分析了引导强度（扰动和监管水平）如何影响模型性能，发现低置信度样本是引发CO和鲁棒-准确率权衡的主要因素。基于此洞察，提出了一种分布感知动态指导（DDG）策略，该策略根据样本在真实类别上的置信度动态调整扰动幅度和监督信号：一方面，根据置信度缩放扰动大小，引导样本朝向一致的决策边界，同时减少对虚假相关性的学习；另一方面，基于每个样本的预测状态动态调整监督信号强度，避免过度强调错误信号。此外，为缓解动态指导可能带来的梯度不稳定，设计了加权正则化约束。在标准基准测试（如CIFAR-10、CIFAR-100等）上的广泛实验表明，DDG能有效缓解CO和鲁棒-准确率权衡，在保持较高干净准确率的同时显著提升鲁棒性。本文适用于对对抗训练、模型鲁棒性及深度学习安全感兴趣的研究人员。

💡 推荐理由: 提出了一种无需额外计算成本的动态指导策略，同时解决了快速对抗训练中的灾难性过拟合和鲁棒-准确率权衡问题，对提升实际部署模型的对抗鲁棒性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)

#adversarial-training

Mitigating Error Amplification in Fast Adversarial Training