本文是一篇系统化知识(SoK)论文,聚焦于机器学习系统中数据集版权的审计问题。随着ML模型规模增大,训练数据需求激增,但未经授权的数据使用(如在线艺术作品或人脸图像)引发了严重的侵权与滥用问题。为应对此挑战,研究者提出了多种审计方法,但现有方案在审计假设和能力上差异显著,且鲁棒性评估往往仅覆盖ML流水线的部分环节,难以反映真实世界应用中的表现。本文从实际部署视角出发,系统梳理了数据集版权审计研究,将其分为两大类:侵入式方法(需修改原始数据集)和非侵入式方法(无需修改数据集)。侵入式方法细分为多种水印注入选项,非侵入式方法则利用不同的指纹技术。论文提供了详细的参考表格,总结了关键点,并指出了当前文献中未解决的问题。最后,结合ML系统流水线并分析先前研究,强调了使审计工具更适用于真实版权保护需求的未来方向。本文有助于安全从业者理解现有审计方法的优劣与适用场景。
💡 推荐理由: 本文系统梳理了ML数据集版权审计方法,帮助安全工程师快速了解侵入式与非侵入式技术的优缺点,为实际部署提供参考。
🎯 建议动作: 研究跟进