#adversarial-detection

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Furkan Mumcu, Yasin Yilmaz

本文研究了深度神经网络中对抗性噪声在不同层间的非均匀传播现象,并首次从理论上给出了形式化的对抗噪声放大定理。作者推导出一组充分条件,保证对抗噪声在特定层或特征空间中以可预测的方式放大,从而为对抗样本检测提供了坚实的数学基础。基于理论分析,他们提出了一种新的训练方法:通过设计定制的谱损失函数和特定的网络架构,强制模型在正常输入与对抗输入之间产生显著不同的噪声放大模式。该方法在训练阶段引入额外的正则化项,使模型对对抗扰动更敏感,同时保持对干净样本的识别能力。在推理阶段,他们开发了一种轻量级的检测机制,仅需一次前向传播即可利用放大的噪声信号判断输入是否对抗,无需额外计算或外部知识。通过在多个基准数据集和多种先进攻击(包括自适应攻击)上的实验,验证了检测器具有高检测率和低误报率,证明了增强的噪声放大可以作为一种鲁棒且可靠的防御信号。本文的主要贡献在于:1)从理论上证明了对抗噪声放大的存在条件;2)提出具体可行的训练与架构设计方法来增强该信号;3)实现了一种高效且仅在推理时运行的检测方法。适合从事深度学习安全、对抗防御研究的人员阅读。

💡 推荐理由: 本文给出了对抗噪声放大的严格数学证明,并据此设计了轻量级检测方法,为提升神经网络对对抗样本的鲁棒性提供了新思路。其理论驱动的思路有助于减少启发式方法的不可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)