#dataset-copyright

共收录 2 条相关安全情报。

← 返回所有主题
推荐 9.5
Conf: 50%
👥 作者: Linkang Du, Xuanru Zhou, Min Chen 0032, Chusong Zhang, Zhou Su, Peng Cheng 0001, Jiming Chen 0001, Zhikun Zhang 0001

本文是一篇系统化知识(SoK)论文,聚焦于机器学习系统中数据集版权的审计问题。随着ML模型规模增大,训练数据需求激增,但未经授权的数据使用(如在线艺术作品或人脸图像)引发了严重的侵权与滥用问题。为应对此挑战,研究者提出了多种审计方法,但现有方案在审计假设和能力上差异显著,且鲁棒性评估往往仅覆盖ML流水线的部分环节,难以反映真实世界应用中的表现。本文从实际部署视角出发,系统梳理了数据集版权审计研究,将其分为两大类:侵入式方法(需修改原始数据集)和非侵入式方法(无需修改数据集)。侵入式方法细分为多种水印注入选项,非侵入式方法则利用不同的指纹技术。论文提供了详细的参考表格,总结了关键点,并指出了当前文献中未解决的问题。最后,结合ML系统流水线并分析先前研究,强调了使审计工具更适用于真实版权保护需求的未来方向。本文有助于安全从业者理解现有审计方法的优劣与适用场景。

💡 推荐理由: 本文系统梳理了ML数据集版权审计方法,帮助安全工程师快速了解侵入式与非侵入式技术的优缺点,为实际部署提供参考。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shang Wang 0004, Tianqing Zhu, Dayong Ye, Hua Ma, Bo Liu 0001, Ming Ding 0001, Shengfang Zhai, Yansong Gao

该论文针对数据集版权保护中水印信号弱、注入率低及对抗攻击下的鲁棒性问题,提出了一种名为DIP的概率水印注入与双重验证框架。核心方法包括三部分:1) 分布感知样本选择:从数据集中均匀选择N个训练样本用于水印注入,从而保持原始数据分布;2) 概率水印注入:对选中的样本注入概率水印,即通过扰动样本特征或标签的方式嵌入不可见标记,使得水印在统计意义上可检测但难以被移除;3) 双重验证:结合基于标签的验证和基于标签分布的验证,提升所有权判定的可靠性。实验在多个图像分类数据集上评估了DIP在不同注入率、不同攻击(如剪枝、微调、后门攻击)下的表现,结果表明DIP在保持模型效用(分类准确率)的同时,显著提升了水印检测的鲁棒性和可信度。该工作主要贡献为提出了一种对弱嵌入信号不敏感的概率水印框架,并设计了双重验证机制来抵御对抗性移除。适合关注数据知识产权保护、鲁棒水印技术的研究者和工程师阅读。

💡 推荐理由: 为数据集版权保护提供了一种鲁棒的概率水印方案,解决低注入率和对抗攻击场景下传统水印易失效的问题,对防范模型窃取和数据侵权有实际意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)