#post-training-detection 主题 - Cyber Security Daily Radar

👥 作者: Hang Wang, Zhen Xiang, David J. Miller 0001, George Kesidis

本文提出一种名为 MM-BD 的后门攻击后训练检测方法，旨在检测深度神经网络分类器中的后门攻击，且不依赖于具体的后门嵌入模式。现有大多数后门检测器均假设攻击者使用特定的后门嵌入函数（如补丁替换或加性攻击），当攻击者采用不同的嵌入函数时，这些检测器容易失效。MM-BD 通过分析 softmax 层之前分类器输出的统计特性来检测任意类型的后门嵌入，其核心思想是利用后门攻击对分类器预激活输出分布的影响，该影响独立于具体的后门嵌入机制。具体而言，对于每个类别，估计一个最大间隔统计量（maximum margin statistic），该统计量反映该类样本预激活输出的分离程度。然后，采用无监督异常检测算法对这些统计量进行异常值分析，从而判断分类器是否被植入后门。该方法不需要任何合法干净样本，且能够有效检测具有任意数量源类别的后门攻击。在四个数据集（CIFAR-10、GTSRB、Tiny ImageNet 等）上，针对三种不同类型的后门模式（补丁替换、加性攻击和混合攻击）以及多种攻击配置（不同毒化率、源类别数量等），MM-BD 均取得了优于多个现有先进方法的检测性能。此外，论文还提出了一种通用的后门缓解方法，该方法在首届 IEEE Trojan 移除比赛中获得亚军，代码已公开。

💡 推荐理由: 提出一种不依赖后门嵌入模式假设的通用检测方法，解决了现有检测器针对未知后门类型容易失效的问题，具有重要理论意义和实际防御价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#post-training-detection

MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic.