本文首次提出并研究了隐私保护的协作数据清理问题。在协作数据清理场景中,两方希望协调各自的数据集,以过滤掉错误分类或误分类的数据项。隐私保护版本的目标是:各方仅能了解自己数据中被误分类的项,而无法获知对方数据集的任何其他信息。私有数据清理本质上是私有集合交集(PSI)的一种变体,可以利用现有的电路PSI技术来私密地计算误分类。然而,作者针对私有数据清理的特殊性设计、分析并实现了三种新协议,性能优于基于电路PSI的方法。第一种协议利用一个小的额外泄漏(数据项交集差异隐私大小)来降低复杂度;另外两种协议将寻找数据分类不匹配的问题转化为寻找匹配,然后采用标准的不经意伪随机函数(OPRF)技术来计算PSI,根据数据类别的数量,相比电路PSI实现了具体的运行时改进。
💡 推荐理由: 该研究为隐私保护的数据协作提供了高效方案,适用于需要联合清理数据但不愿泄露数据的场景(如金融、医疗)。
🎯 建议动作: 研究跟进