#theory

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Matthew Regehr, Gautam Kamath, Andrew Lowy

本文研究了机器学习中的“遗忘”(unlearning)问题,即如何从已训练好的模型中移除某个用户数据的影响,以满足如“被遗忘权”等法律和用户需求。针对光滑强凸损失函数下的随机优化场景,前期工作已经提出了一些遗忘算法及其误差界,但遗忘的统计代价——即与从头再训练相比,遗忘算法在泛化误差上的额外成本——尚未明确。本文几乎完全解决了这一问题:作者证明了近似ε-遗忘的额外种群风险(excess population risk)的上界和下界,并且这些界除了一个条件数因子外是紧的。对于单位球上的均值估计,上下界完全匹配。最优遗忘率等于通常的统计误差加上一个遗忘惩罚项,该惩罚项在从头再训练率和随ε/d增长而指数级减小的项之间插值,其中d是模型维度。特别地,当ε远大于d时,所提出的ε-遗忘算法相比从头再训练和差分隐私基线,在精度上呈指数级提升;而当ε小于等于d时,从头再训练是最优的。该工作为理解遗忘的基本统计成本提供了理论基础。

💡 推荐理由: 该工作首次几乎严格确定了机器学习遗忘的统计代价,揭示了在何种条件下遗忘可以显著优于再训练,对隐私法规合规及模型部署具有理论指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Madhura Pathegama, Srikanth Avasarala, Viveck R. Cadambe, Juba Ziani

本文研究在诚实但好奇的服务器场景下,通过本地差分隐私(LDP)对 n 个用户持有的数值进行私有求和估计。传统上,本地差分隐私要求每个用户独立添加噪声,导致估计精度远低于集中式差分隐私(CDP)——后者在汇总数据后统一添加噪声。本文证明这一精度差距并非本质性的:通过精心设计用户间本地噪声的相关性,可以构造满足 ε-差分隐私的机制,使得求和估计的均方误差(MSE)与集中式设置中可达到的最优值任意接近。具体地,作者提出一种基于相关噪声的 LDP 机制,其估计成本(MSE)与 CDP 最优成本仅相差任意小的常数倍,从而在理论上确立了 LDP 可以无损达到 CDP 的效用。该结果挑战了 LDP 必然导致高噪声损失的普遍认知,为设计高效本地隐私保护聚合协议提供了新的理论框架。论文属于理论性研究,适合对差分隐私、统计推断和隐私计算理论感兴趣的学者。

💡 推荐理由: 证明了本地差分隐私(LDP)可以通过相关噪声消除与集中式差分隐私(CDP)之间的效用差距,从根本上改变了业界对 LDP 精度上限的认知,对隐私保护聚合协议的设计具有重要理论指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)