#subpopulation 主题 - Cyber Security Daily Radar

👥 作者: Yan Liang, Ziyuan Yang, Mengyu Sun, Joey Tianyi Zhou, Yi Zhang

本文针对数据集蒸馏（Dataset Distillation, DD）技术中的版权保护问题展开研究。DD通过合成小型但信息丰富的数据集来降低大规模数据集的存储、计算和能源成本，但其易复制和分发的特性带来了严重的版权侵权和数据泄露风险。现有的保护方法主要针对原始数据集设计，且通常依赖于后门触发的恶意行为，可能引发安全担忧。作者观察到深度神经网络在训练过程中会记忆子群体分布，导致系统性预测偏差，即模型对与记忆子群体对齐的样本表现更好。基于此，提出了一种无害的子群体驱动保护框架SubPopMark，用于蒸馏数据集。SubPopMark包含两个阶段：首先，版权验证标记优化阶段注入类一致性的子群体偏差，同时保留原始优化轨迹；其次，用户特定追踪标记优化阶段进一步向标记增强数据引入用户可区分的扰动。为实现黑盒验证与追踪，作者通过构建覆盖标准分布和子群体偏移分布的精心设计测试集上的模型输出，建立参考行为库。可疑模型的来源通过将其输出行为签名与库中模式比对，识别最一致的参考行为模式来推断。实验将证明该方法在不引入恶意后门的前提下，有效实现对蒸馏数据集的版权保护和用户追踪。

💡 推荐理由: 数据集蒸馏的版权保护是实际部署中的关键问题，现有方法存在安全担忧。本文提出无害保护框架，为安全从业者提供了在蒸馏场景下进行版权验证和溯源的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#subpopulation

From Compression to Accountability: Harmless Copyright Protection for Dataset Distillation