#public-data 主题 - Cyber Security Daily Radar

👥 作者: Ahmed Mehdi Inane, Vincent Quirion, Gintare Karolina Dzugaite, Ioannis Mitliagkas

本文研究了基于噪声的认证机器学习遗忘问题。现有方法面临一个硬性天花板：为保证遗忘认证所需添加的噪声量通常会严重破坏模型效用，尤其是在大规模删除请求场景下。结合公共数据是差分隐私中缓解这一矛盾的常用技术，但在遗忘领域尚未被充分探索。本文提出非对称朗之万遗忘（ALU）框架，利用公共数据来降低隐私成本。理论证明，注入公共数据能使遗忘成本以 $O(1/n_{\mathrm{pub}}^2)$ 的因子降低，保证了相对于重新训练的计算优势，从而建立了一种新的控制机制：从业者可以通过增加公共数据量来减少高噪声需求及其伴随的效用损失。此外，本文分析了分布不匹配的现实场景，明确刻画了公共与私人源数据之间的分布偏移如何影响效用。实验表明，ALU 能够在模型需要批量遗忘固定比例数据（标准对称方法在此情况下变得不切实际）时保持高效用。基于变分 Rényi 散度与成员推断攻击的实证评估证实，在合理的分布偏移下，ALU 能有效抵御隐私攻击同时保留模型效用。

💡 推荐理由: 为大规模机器学习遗忘提供了一种实用的噪声控制方案，利用公共数据突破效用瓶颈，对隐私法规合规（如GDPR“被遗忘权”）具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#public-data

Unlearning with Asymmetric Sources: Improved Unlearning-Utility Trade-off with Public Data