#dataset-copyright

共收录 2 条相关安全情报。

👥 作者: Linkang Du, Xuanru Zhou, Min Chen 0032, Chusong Zhang, Zhou Su, Peng Cheng 0001, Jiming Chen 0001, Zhikun Zhang 0001

本文是一篇系统化知识（SoK）论文，聚焦于机器学习系统中数据集版权的审计问题。随着ML模型规模增大，训练数据需求激增，但未经授权的数据使用（如在线艺术作品或人脸图像）引发了严重的侵权与滥用问题。为应对此挑战，研究者提出了多种审计方法，但现有方案在审计假设和能力上差异显著，且鲁棒性评估往往仅覆盖ML流水线的部分环节，难以反映真实世界应用中的表现。本文从实际部署视角出发，系统梳理了数据集版权审计研究，将其分为两大类：侵入式方法（需修改原始数据集）和非侵入式方法（无需修改数据集）。侵入式方法细分为多种水印注入选项，非侵入式方法则利用不同的指纹技术。论文提供了详细的参考表格，总结了关键点，并指出了当前文献中未解决的问题。最后，结合ML系统流水线并分析先前研究，强调了使审计工具更适用于真实版权保护需求的未来方向。本文有助于安全从业者理解现有审计方法的优劣与适用场景。

💡 推荐理由: 本文系统梳理了ML数据集版权审计方法，帮助安全工程师快速了解侵入式与非侵入式技术的优缺点，为实际部署提供参考。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shang Wang 0004, Tianqing Zhu, Dayong Ye, Hua Ma, Bo Liu 0001, Ming Ding 0001, Shengfang Zhai, Yansong Gao

该论文针对数据集版权保护中水印信号弱、注入率低及对抗攻击下的鲁棒性问题，提出了一种名为DIP的概率水印注入与双重验证框架。核心方法包括三部分：1) 分布感知样本选择：从数据集中均匀选择N个训练样本用于水印注入，从而保持原始数据分布；2) 概率水印注入：对选中的样本注入概率水印，即通过扰动样本特征或标签的方式嵌入不可见标记，使得水印在统计意义上可检测但难以被移除；3) 双重验证：结合基于标签的验证和基于标签分布的验证，提升所有权判定的可靠性。实验在多个图像分类数据集上评估了DIP在不同注入率、不同攻击（如剪枝、微调、后门攻击）下的表现，结果表明DIP在保持模型效用（分类准确率）的同时，显著提升了水印检测的鲁棒性和可信度。该工作主要贡献为提出了一种对弱嵌入信号不敏感的概率水印框架，并设计了双重验证机制来抵御对抗性移除。适合关注数据知识产权保护、鲁棒水印技术的研究者和工程师阅读。

💡 推荐理由: 为数据集版权保护提供了一种鲁棒的概率水印方案，解决低注入率和对抗攻击场景下传统水印易失效的问题，对防范模型窃取和数据侵权有实际意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

Cyber Security Daily Radar

#dataset-copyright

SoK: Dataset Copyright Auditing in Machine Learning Systems.

Unshaken by Weak Embedding: Robust Probabilistic Watermarking for Dataset Copyright Protection.