#defense-mechanism

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Xinhai Zou, Chang Zhao, Alireza Aghabagherloo, Dave Singelée, Robin Degraeve, Bart Preneel

本文研究强化学习(RL)训练如何破坏基于梯度的对抗攻击。传统上,梯度攻击(如PGD、AutoAttack)利用神经网络的梯度信息高效生成对抗样本。作者假设RL训练(使用策略梯度目标和epsilon-greedy探索)可以改变模型梯度结构,使攻击者难以优化。在CIFAR-10、CIFAR-100和ImageNet-100数据集上,采用多种架构(如ResNet)进行系统实验,结果表明RL训练的分类器显著降低梯度攻击的成功率。机制分析通过损失景观可视化、静态和动态梯度指标以及预测熵揭示:RL充当隐式正则化器,迫使模型产生高度不稳定的梯度方向和较小的梯度幅度。这种组合使得每个PGD迭代步骤在方向和幅度上均不可靠,导致攻击在实用迭代预算内失败。进一步地,将RL与对抗训练结合(RL-adv)形成双层防御:RL在梯度层面削弱攻击信息,对抗训练在决策边界层面增强鲁棒性。RL-adv在梯度攻击、迁移攻击和查询攻击上均取得最高鲁棒性,显著优于标准对抗训练(SL-adv)。主要贡献包括:首次提出RL诱导的梯度破坏作为互补鲁棒机制;揭示梯度不稳定性和幅度减小是核心原因;验证RL-adv结合了两种不同层面的防御。适合对对抗鲁棒性、强化学习应用和安全防御感兴趣的研究者阅读。

💡 推荐理由: 该研究揭示了一种新颖的鲁棒性机制,即通过RL训练破坏梯度信息,为对抗防御提供了不同与传统对抗训练的新思路,可能启发未来混合训练策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)