#semantic-contradiction 主题 - Cyber Security Daily Radar

👥 作者: Yijun Yang, Ruiyuan Gao 0001, Yu Li 0007, Qiuxia Lai, Qiang Xu 0001

该论文聚焦于深度神经网络（DNN）在安全关键领域（如自动驾驶）中面临的对抗性样本威胁。现有防御方法存在诸多局限：只能防御部分对抗性样本，或导致正常输入的高精度损失，且多数无法抵御自适应攻击（即攻击者了解防御机制后针对性构造的样本）。作者观察到一种语义矛盾现象：人类对图像的感知与网络内部表征之间存在差异。基于此，提出一种新的检测方法，通过比较网络输出与人类可理解的语义标签是否一致来识别对抗性样本。具体地，该方法利用一个额外的语义一致性校验模块，该模块从网络中间层提取特征，并与输入的语义标签进行对比，若不一致则判定为对抗性样本。实验在多个基准数据集（如ImageNet、CIFAR-10）和多种攻击手段（FGSM、PGD、CW等）下进行，结果表明该方法能有效检测多种对抗性样本，同时对正常输入的精度损失极小。此外，该方法在自适应攻击下仍能保持较高检测率，展现了较好的鲁棒性。主要贡献包括：首次系统性地利用语义矛盾检测对抗性样本；提出一种轻量级、可插拔的检测模块，降低部署成本；通过大量实验验证了方法的有效性。该研究适合计算机视觉安全、DNN鲁棒性领域的研究人员及安全工程师阅读。

💡 推荐理由: 针对对抗性样本的现有防御普遍存在覆盖不全或影响正常性能的问题，该论文提出的基于语义矛盾的检测方法在保持高检测率的同时几乎不损失正常输入精度，且能抵抗自适应攻击，为实际部署提供了更实用的解决方案。

🎯 建议动作: 研究跟进：评估该方法在自身业务场景中的适用性，并考虑集成到现有防御体系中。

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#semantic-contradiction

What You See is Not What the Network Infers: Detecting Adversarial Examples Based on Semantic Contradiction.