#self-supervised learning 主题 - Cyber Security Daily Radar

👥 作者: Jinyuan Jia 0001, Yupei Liu, Neil Zhenqiang Gong

自监督学习在计算机视觉领域通过大量无标签图像或(图像，文本)对预训练图像编码器，然后将该编码器作为特征提取器，用于少量或零标注数据的下游分类任务。本文提出BadEncoder，是首个针对自监督学习的后门攻击方法。该方法将后门注入预训练图像编码器，使得基于该编码器构建的多个下游分类器同时继承后门行为。攻击者通过优化问题形式化BadEncoder，并采用梯度下降方法从干净编码器生成带后门的编码器。在多个数据集上的实验表明，BadEncoder能在保持下游分类器精度的同时实现高攻击成功率。进一步在真实世界编码器（如Google在ImageNet上预训练的编码器和OpenAI在4亿(图像,文本)对预训练的CLIP图像编码器）上验证了有效性。现有防御方法（包括经验性防御Neural Cleanse、MNTD以及可证明防御PatchGuard）均无法有效防御BadEncoder，凸显了开发新型防御的需求。代码已开源。

💡 推荐理由: 该研究首次揭示自监督预训练编码器存在后门攻击风险，现有防御全面失效，威胁广泛使用的CLIP等模型，急需防御方案。

🎯 建议动作: 研究跟进，评估自身自监督模型后门风险，关注后续防御方案

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#self-supervised learning

BadEncoder: Backdoor Attacks to Pre-trained Encoders in Self-Supervised Learning.