本文研究目标检测模型中的后门攻击防御问题。后门攻击会向深度模型中植入恶意行为,同时保持其在干净数据上的性能,对安全关键的视觉系统构成严重威胁。虽然图像分类领域的后门防御已有广泛研究,但目标检测的防御方法相对不成熟。对抗微调是分类任务中常用的后门缓解方法,但直接迁移到目标检测面临挑战:分类导向的对抗生成与检测攻击空间不匹配(攻击可能导致目标误分类或消失),且标准检测损失会在众多预测中稀释修复信号。本文提出了一种检测感知的对抗微调框架,在防御者仅能访问受损检测器和少量干净数据集、且未知攻击目标的情况下缓解目标检测后门。首先,为了在不需攻击目标知识的情况下生成对抗样本,引入了软分支最小化(soft-branch minimisation),使用软门控组合针对误分类和消失攻击的目标,并结合检测感知的分类损失最大化。其次,针对定向修复,提出了一种对目标匹配预测应用的双目标微调损失,将防御更新集中在与后门行为最相关的预测上。在基于CNN和Transformer的检测器上的实验表明,与分类导向的基线方法相比,该方法在更有效降低攻击成功率的同时保持真实检测性能,并维持了有竞争力的干净检测性能。
💡 推荐理由: 首次系统性地将对抗微调后门防御从分类扩展到目标检测,填补了该领域防御方法的空白,对提升自动驾驶、安防等安全关键视觉系统的鲁棒性具有直接价值。
🎯 建议动作: 研究跟进