#representation-erasure 主题 - Cyber Security Daily Radar

👥 作者: Vedant Jawandhia, Daksh Ahuja, Ghufran Alam Siddiqui, Prashant Trivedi, Yash Sinha, Pratik Narang

本文提出了一种名为 PURGE 的机器遗忘算法，其核心思想基于持续学习（Continual Learning, CL）与机器遗忘（Machine Unlearning, MU）的本质二元性：持续学习旨在学习新任务而不遗忘旧知识，而机器遗忘则旨在擦除特定数据的同时保持模型在保留集上的性能。PURGE 通过借鉴 A-GEM 的梯度投影方法，将遗忘步骤的梯度约束在保留集损失不增加的可行方向内，从而在每次更新时保护保留集性能。在此基础上，PURGE 进一步实现了多层表示擦除：它不仅关注输出层，而是在中间隐藏层将遗忘集样本的激活分布推向保留集分布，从而更彻底地移除信息，避免仅在输出层压制。一个关键设计是“保留混淆目标”（retain-confusion target）：不同于将遗忘集输出推向均匀分布（作者发现均匀分布易被成员推断攻击检测到），PURGE 将遗忘集输出推向模型在保留集上的自然混淆分布，使得遗忘后的模型难以与从头重新训练的模型区分。算法还引入了两个自调节停止准则：保留损失预算和遗忘准确率目标，使算法自动决定何时停止，无需手动调整训练轮数。在 CIFAR-10、MNIST、SVHN、STL10、PathMNIST 五个数据集上的 22 个类别级遗忘任务实验中，PURGE 持续保持了保留集准确率高于 96%，同时成员推断攻击的 AUROC 趋近于理想值 0.5，在隐私-效用前沿上优于梯度上升、KL-均匀分布以及多个已发表基线方法。该方法对于大语言模型中特定数据遗忘场景（如版权内容移除、隐私数据擦除）具有潜在迁移价值。

💡 推荐理由: PURGE 提出了一种高效且隐私保护更强的机器遗忘方法，能够在不损害模型整体性能的前提下精确擦除指定数据，对于满足数据隐私法规（如 GDPR“被遗忘权”）以及防御成员推断攻击具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#representation-erasure

PURGE: Projected Unlearning via Retain-Guided Erasure