#dnn-security

共收录 1 条相关安全情报。

← 返回所有主题
推荐 8.5
Conf: 50%
👥 作者: Samuele Pasini, Jinhan Kim, Paolo Tonella

现代深度神经网络(DNN)通过反复微调来融入新数据与功能,但这种演进工作流引入了安全风险:当更新数据不完全可信时,攻击者可能在微调过程中植入后门(Trojan)。现有的后门检测方法通常需要重建触发器或依赖干净验证集,假设条件强且计算开销大。本文提出MIST(Malicious update Identification via Spectral regression),一种基于谱回归分析的后门检测方法。核心思想是:良性微调过程中,模型内部表示(各层预激活值)的谱分布变化具有一致的模式;而后门植入会导致谱偏离这种良性演化模式。MIST将后门检测视为模型更新上的回归问题:首先在良性微调阶段建立预激活谱的参考分布,然后计算每次更新的谱距离,若距离显著偏离参考则标记为恶意。实验在CIFAR-10、GTSRB、Tiny-ImageNet和SVHN四个数据集以及BadNets、TrojanNN等八种后门攻击下进行。结果表明:单次更新后,MIST即可可靠区分后门更新与干净微调,检测准确率优于现有方法(如Neural Cleanse、STRIP等);在多次良性更新后,性能仅有轻微且可控的退化。MIST无需了解任何中毒数据或触发条件,也不假设攻击方式,是一种假设轻量、鲁棒性强的检测信号。适合关注模型供应链安全、微调安全的研究人员和工程团队。

💡 推荐理由: 针对微调场景下的后门注入攻击提出了一种无需先验知识的检测方法,利用谱演化信号实现高准确率,对保障模型供应链安全具有实际意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)