本文提出了一种名为BARBIE的鲁棒后门检测方法,旨在解决深度学习模型共享中的安全风险。后门攻击会使模型在正常样本上表现正常,但在含有特定触发器的样本上产生恶意行为。现有检测方法利用良性模型与后门模型在潜在表示上的可分离性(latent separability),通过聚类或距离度量来区分,但这些方法容易被自适应攻击(adaptive attacks)绕过。BARBIE提出了一种新的度量指标——相对竞争分数(Relative Competition Score, RCS),通过刻画潜在表示对模型输出的主导性来表征可分离性,该指标对各种后门攻击具有鲁棒性,且难以被攻击者操控。该方法无需访问任何良性或后门样本,仅通过反转每个标签的两组潜在表示(一组反映良性模型的正常表示,另一组放大后门模型的异常表示)来计算RCS。基于RCS,BARBIE构建了一系列指标来全面反映后门模型与良性模型的差异。实验在4个数据集上对超过10,000个模型进行了验证,覆盖14种后门攻击类型,包括针对潜在可分离性的自适应攻击。与7种基线方法相比,BARBIE在源不可知攻击(source-agnostic)上平均真阳性率提升17.05%,源特定攻击提升27.72%,样本特定攻击提升43.17%,干净标签攻击提升11.48%,同时保持更低的假阳性率。该研究为模型供应链安全提供了有效的防御工具。
💡 推荐理由: 后门攻击威胁深度学习模型共享生态,现有检测方法易被自适应攻击绕过。BARBIE通过新颖的RCS度量实现鲁棒检测,显著提升真阳性率并降低误报,为安全部署模型提供了可靠手段。
🎯 建议动作: 研究跟进