#data-deduplication 主题 - Cyber Security Daily Radar

👥 作者: Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar

本文针对联邦学习场景中数据去重面临的隐私和可扩展性挑战，提出了一种高效隐私保护的多方去重协议 EP-MPD。在联邦学习中，不同客户端的数据可能存在重复样本，去除这些重复能提升模型性能并节省训练时间与能耗。然而，传统去重需要聚合各方数据，会泄露隐私。EP-MPD 基于两个新颖的私有集合交集（PSI）协议变体构建，采用模块化设计，能够在多个客户端数据集上安全高效地移除重复数据，而无需暴露原始数据。实验表明，在大型语言模型的联邦训练中，当重复率在 10%-30% 时，应用 EP-MPD 可使困惑度（perplexity）最多降低 19.62%，运行时间最多减少 27.95%。该协议在隐私和性能之间取得了良好平衡，适用于大规模联邦学习应用。本文的主要贡献包括：首次针对联邦学习提出隐私保护去重协议，设计两种高效的 PSI 变体，并通过实验验证了去重对联邦 LLM 训练的显著收益。适合隐私保护机器学习、联邦学习及大模型训练领域的研究者和工程师阅读。

💡 推荐理由: 该研究为联邦学习中数据去重的隐私泄漏问题提供了首个实用解决方案，能显著提升 LLM 训练效率，对隐私合规要求高的跨机构合作场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#data-deduplication

Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models.