该论文针对差分隐私(DP)对比学习中的效用退化问题展开研究。在标准的对比学习目标中,每个样本的梯度依赖于批次内所有其他样本,这种过强的样本间依赖性放大了DP噪声的影响,导致现有方法在保护隐私的同时严重损失模型效用。作者指出,有效的DP对比学习需要显式减少这种内在的样本间依赖。为此,他们提出了DP-GCL框架,通过限制组级贡献来结构化地约束梯度依赖。具体来说,DP-GCL将每个批次划分为若干不相交的小组,并将可用的负样本限制在组内,从而将梯度影响局部化并降低敏感性。为了补偿由此导致的负样本多样性损失,他们进一步引入了组内增强(intra-group augmentation),在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的广泛实验表明,DP-GCL在实用的隐私预算下,在单模态和多模态对比学习任务中均持续提升了当前最优水平:与现有DP对比方法相比,图像分类准确率提升了5.6%,图像-文本检索准确率提升了20.1%。该工作为在隐私保护下学习高质量通用表示提供了新的思路。
💡 推荐理由: 为差分隐私对比学习提供了一种有效的梯度依赖控制方法,显著缓解了隐私噪声导致的效用下降,对保护敏感数据训练的表示模型有重要实践价值。
🎯 建议动作: 研究跟进