本文研究了隐私保护协作数据清洗问题。在协作数据清洗中,两方希望调和各自的数据集,以过滤掉分类错误的数据项。隐私保护版本增加了安全目标:各方仅能了解自己分类错误的数据项,而不能获知对方数据集的其他信息。该问题本质上是隐私集合交集(PSI)的变体,理论上可采用电路PSI技术实现。然而,作者针对私有数据清洗的特性,设计、分析并实现了三种新协议,性能优于电路PSI。第一种协议利用少量附加泄漏(数据项交集差分隐私大小)来降低复杂度;另外两种协议将数据分类不匹配问题转化为匹配问题,然后采用标准的不经意伪随机函数(OPRF)技术计算PSI。实验表明,根据数据类别数量的不同,协议相比电路PSI有具体的运行时间提升。本文主要贡献在于提出了适合私有数据清洗的高效协议,并通过理论分析和实验验证了其优势。适合研究安全多方计算、隐私保护数据清洗的研究者阅读。
💡 推荐理由: 该研究为隐私保护数据清洗提供了高效协议,有望在多方数据协作场景中减少泄漏风险,同时提升性能,对数据融合和隐私合规有参考价值。
🎯 建议动作: 研究跟进