#post-training-detection

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Hang Wang, Zhen Xiang, David J. Miller 0001, George Kesidis

本文提出一种名为 MM-BD 的后门攻击后训练检测方法,旨在检测深度神经网络分类器中的后门攻击,且不依赖于具体的后门嵌入模式。现有大多数后门检测器均假设攻击者使用特定的后门嵌入函数(如补丁替换或加性攻击),当攻击者采用不同的嵌入函数时,这些检测器容易失效。MM-BD 通过分析 softmax 层之前分类器输出的统计特性来检测任意类型的后门嵌入,其核心思想是利用后门攻击对分类器预激活输出分布的影响,该影响独立于具体的后门嵌入机制。具体而言,对于每个类别,估计一个最大间隔统计量(maximum margin statistic),该统计量反映该类样本预激活输出的分离程度。然后,采用无监督异常检测算法对这些统计量进行异常值分析,从而判断分类器是否被植入后门。该方法不需要任何合法干净样本,且能够有效检测具有任意数量源类别的后门攻击。在四个数据集(CIFAR-10、GTSRB、Tiny ImageNet 等)上,针对三种不同类型的后门模式(补丁替换、加性攻击和混合攻击)以及多种攻击配置(不同毒化率、源类别数量等),MM-BD 均取得了优于多个现有先进方法的检测性能。此外,论文还提出了一种通用的后门缓解方法,该方法在首届 IEEE Trojan 移除比赛中获得亚军,代码已公开。

💡 推荐理由: 提出一种不依赖后门嵌入模式假设的通用检测方法,解决了现有检测器针对未知后门类型容易失效的问题,具有重要理论意义和实际防御价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)