本文提出了一种名为 PURGE 的机器遗忘算法,其核心思想基于持续学习(Continual Learning, CL)与机器遗忘(Machine Unlearning, MU)的本质二元性:持续学习旨在学习新任务而不遗忘旧知识,而机器遗忘则旨在擦除特定数据的同时保持模型在保留集上的性能。PURGE 通过借鉴 A-GEM 的梯度投影方法,将遗忘步骤的梯度约束在保留集损失不增加的可行方向内,从而在每次更新时保护保留集性能。在此基础上,PURGE 进一步实现了多层表示擦除:它不仅关注输出层,而是在中间隐藏层将遗忘集样本的激活分布推向保留集分布,从而更彻底地移除信息,避免仅在输出层压制。一个关键设计是“保留混淆目标”(retain-confusion target):不同于将遗忘集输出推向均匀分布(作者发现均匀分布易被成员推断攻击检测到),PURGE 将遗忘集输出推向模型在保留集上的自然混淆分布,使得遗忘后的模型难以与从头重新训练的模型区分。算法还引入了两个自调节停止准则:保留损失预算和遗忘准确率目标,使算法自动决定何时停止,无需手动调整训练轮数。在 CIFAR-10、MNIST、SVHN、STL10、PathMNIST 五个数据集上的 22 个类别级遗忘任务实验中,PURGE 持续保持了保留集准确率高于 96%,同时成员推断攻击的 AUROC 趋近于理想值 0.5,在隐私-效用前沿上优于梯度上升、KL-均匀分布以及多个已发表基线方法。该方法对于大语言模型中特定数据遗忘场景(如版权内容移除、隐私数据擦除)具有潜在迁移价值。
💡 推荐理由: PURGE 提出了一种高效且隐私保护更强的机器遗忘方法,能够在不损害模型整体性能的前提下精确擦除指定数据,对于满足数据隐私法规(如 GDPR“被遗忘权”)以及防御成员推断攻击具有重要意义。
🎯 建议动作: 研究跟进