#watermark-removal 主题 - Cyber Security Daily Radar

👥 作者: Hao Luan, Xue Tan, Zhiheng Li, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文提出一种基于自监督学习的模型提取攻击方法，旨在同时实现数据集缩减和水印移除。传统模型提取攻击通常需要大量查询和完整训练数据，且可能保留原始模型的水印。作者利用自监督学习（如对比学习）从目标模型中提取知识，仅需少量未标记样本即可训练一个紧凑的替代模型。该方法通过构建正负样本对进行对比学习，使替代模型模仿目标模型的表示空间，从而在减少数据集规模（例如仅需原始数据集的10%）的同时，有效消除嵌入在目标模型中的水印。实验在多个图像分类数据集（CIFAR-10, CIFAR-100, SVHN）和不同架构（ResNet, VGG）上进行，结果显示替代模型在保持高准确率（接近目标模型）的同时，水印移除成功率显著高于基线方法。该研究揭示了自监督学习在模型窃取中的潜力，对模型水印保护机制构成新挑战。

💡 推荐理由: 该研究暴露了自监督学习可被用于高效模型窃取并绕过水印保护，威胁模型知识产权和安全性，需引起防御方重视。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#watermark-removal

Dataset Reduction and Watermark Removal via Self-supervised Learning for Model Extraction Attack.