#defense-mechanism 主题 - Cyber Security Daily Radar

👥 作者: Xinhai Zou, Chang Zhao, Alireza Aghabagherloo, Dave Singelée, Robin Degraeve, Bart Preneel

本文研究强化学习（RL）训练如何破坏基于梯度的对抗攻击。传统上，梯度攻击（如PGD、AutoAttack）利用神经网络的梯度信息高效生成对抗样本。作者假设RL训练（使用策略梯度目标和epsilon-greedy探索）可以改变模型梯度结构，使攻击者难以优化。在CIFAR-10、CIFAR-100和ImageNet-100数据集上，采用多种架构（如ResNet）进行系统实验，结果表明RL训练的分类器显著降低梯度攻击的成功率。机制分析通过损失景观可视化、静态和动态梯度指标以及预测熵揭示：RL充当隐式正则化器，迫使模型产生高度不稳定的梯度方向和较小的梯度幅度。这种组合使得每个PGD迭代步骤在方向和幅度上均不可靠，导致攻击在实用迭代预算内失败。进一步地，将RL与对抗训练结合（RL-adv）形成双层防御：RL在梯度层面削弱攻击信息，对抗训练在决策边界层面增强鲁棒性。RL-adv在梯度攻击、迁移攻击和查询攻击上均取得最高鲁棒性，显著优于标准对抗训练（SL-adv）。主要贡献包括：首次提出RL诱导的梯度破坏作为互补鲁棒机制；揭示梯度不稳定性和幅度减小是核心原因；验证RL-adv结合了两种不同层面的防御。适合对对抗鲁棒性、强化学习应用和安全防御感兴趣的研究者阅读。

💡 推荐理由: 该研究揭示了一种新颖的鲁棒性机制，即通过RL训练破坏梯度信息，为对抗防御提供了不同与传统对抗训练的新思路，可能启发未来混合训练策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#defense-mechanism

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization