#backdoor

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Mengnan Zhao, Lihe Zhang, Tianhang Zheng, Bo Wang, Baocai Yin

本文旨在解释快速对抗训练(Fast Adversarial Training, FAT)中出现的灾难性过拟合(Catastrophic Overfitting, CO)现象。FAT能高效提升神经网络对对抗样本的鲁棒性,但容易发生CO,即模型过度拟合训练时使用的特定攻击,导致对其他攻击的泛化能力差。现有方法虽提出了各种缓解策略,但缺乏系统直观的解释。本文创新性地从后门攻击(backdoor)的角度解读CO:通过路径划分、多样特征预测和通用类别可区分触发器的验证,将CO视为不可学习任务(unlearnable tasks)的弱触发器变体,从而统一了CO、后门攻击和不可学习任务的理论框架。基于此,作者提出了多种后门启发的缓解方法:(1)使用微调、线性探测或重新初始化技术重新校准受CO影响的模型参数;(2)引入权重异常值抑制约束,控制模型权重的异常偏差。大量实验支持了对CO的解释,并证明了所提缓解策略的有效性。本文适合机器学习安全、对抗鲁棒性方向的研究人员阅读。

💡 推荐理由: 该研究首次将灾难性过拟合与后门攻击统一在同一个框架下,为理解模型鲁棒性问题提供了新视角,并提出了有效的缓解策略。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)