本文研究了机器学习中的“遗忘”(unlearning)问题,即如何从已训练好的模型中移除某个用户数据的影响,以满足如“被遗忘权”等法律和用户需求。针对光滑强凸损失函数下的随机优化场景,前期工作已经提出了一些遗忘算法及其误差界,但遗忘的统计代价——即与从头再训练相比,遗忘算法在泛化误差上的额外成本——尚未明确。本文几乎完全解决了这一问题:作者证明了近似ε-遗忘的额外种群风险(excess population risk)的上界和下界,并且这些界除了一个条件数因子外是紧的。对于单位球上的均值估计,上下界完全匹配。最优遗忘率等于通常的统计误差加上一个遗忘惩罚项,该惩罚项在从头再训练率和随ε/d增长而指数级减小的项之间插值,其中d是模型维度。特别地,当ε远大于d时,所提出的ε-遗忘算法相比从头再训练和差分隐私基线,在精度上呈指数级提升;而当ε小于等于d时,从头再训练是最优的。该工作为理解遗忘的基本统计成本提供了理论基础。
💡 推荐理由: 该工作首次几乎严格确定了机器学习遗忘的统计代价,揭示了在何种条件下遗忘可以显著优于再训练,对隐私法规合规及模型部署具有理论指导意义。
🎯 建议动作: 研究跟进