本论文是第一篇系统化整合机器学习模型去记忆化(dememorization)两种主要方法——不可学习性(unlearnability)和机器遗忘(machine unlearning)——的研究综述。不可学习性通过在训练前向数据注入难以感知的扰动,从而降低模型对特定数据的学习能力;机器遗忘则是在训练后移除模型已获取的敏感信息,防止未经授权的披露或使用。论文指出,这两种防御手段虽旨在保护知识不被滥用,但都存在“浅层去记忆化”(shallow dememorization)的问题,即在权重扰动下会错误声称数据已不可学或已遗忘。此外,输入扰动可能影响后续机器遗忘的效果,而机器遗忘可能意外恢复被不可学习性隐藏的领域知识。研究贡献包括:(i) 提出统一的不可学习性和可扩展机器遗忘方法分类法;(ii) 通过实验评估主流方法的鲁棒性、相互作用及浅层去记忆化问题;(iii) 首次给出经过认证遗忘(certified unlearning)处理的模型去记忆化深度的理论保证。该工作为在整个机器学习生命周期中统一去记忆化机制、实现敏感知识的深度遗忘奠定了基础。
💡 推荐理由: 数据隐私法规要求模型‘删除’个人数据,但现有去记忆化方法存在虚假信心和浅层遗忘风险。本SoK首次系统揭示两种方法的内在弱点与相互作用,为构建可信赖的遗忘机制提供理论基准。
🎯 建议动作: 研究跟进