推荐 9.5
Conf: 50%
本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习(如CLIP)易受后门攻击,攻击者可通过在训练数据中注入触发模式,使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据,难以应对实际攻击。InverTune通过后门-对抗相关性分析(Backdoor-Adversarial Correlation Analysis)来检测并抵御后门。具体而言,该方法利用后门触发器与对抗性扰动之间的统计相关性,设计了一种新的训练范式,使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集(如Flickr30K、MSCOCO)上验证了有效性,与现有防御相比,InverTune在保持下游任务性能的同时显著降低了后门攻击成功率,且不需要任何干净参考样本。本文主要贡献包括:首次将后门与对抗相关性引入多模态防御,提出无需干净数据的训练框架,以及在多个攻击场景下的鲁棒性验证。
💡 推荐理由: 多模态对比学习(如CLIP)被广泛用于图像检索、视觉问答等关键任务,其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路,对保护多模态AI系统具有重要实践价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)