推荐 9.5
Conf: 50%
本文提出一种基于自监督学习的模型提取攻击方法,旨在同时实现数据集缩减和水印移除。传统模型提取攻击通常需要大量查询和完整训练数据,且可能保留原始模型的水印。作者利用自监督学习(如对比学习)从目标模型中提取知识,仅需少量未标记样本即可训练一个紧凑的替代模型。该方法通过构建正负样本对进行对比学习,使替代模型模仿目标模型的表示空间,从而在减少数据集规模(例如仅需原始数据集的10%)的同时,有效消除嵌入在目标模型中的水印。实验在多个图像分类数据集(CIFAR-10, CIFAR-100, SVHN)和不同架构(ResNet, VGG)上进行,结果显示替代模型在保持高准确率(接近目标模型)的同时,水印移除成功率显著高于基线方法。该研究揭示了自监督学习在模型窃取中的潜力,对模型水印保护机制构成新挑战。
💡 推荐理由: 该研究暴露了自监督学习可被用于高效模型窃取并绕过水印保护,威胁模型知识产权和安全性,需引起防御方重视。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)