#privacy-preserving-ml

共收录 2 条相关安全情报。

👥 作者: Daniil Filienko, Martine De Cock, Sikha Pentyala

本文针对基因组数据的高度敏感性和访问限制，提出了一种跨机构安全合成基因组数据生成方法。由于基因组数据的隐私性，数据共享受到严格监管，阻碍了AI在基因组学中的发展。合成数据生成通过训练生成模型并采样保留相关统计信息的人工数据，可以在不泄露个体敏感信息的同时促进数据共享。但在许多应用中（如罕见病研究），单个机构的数据量不足以训练有效的生成模型，需要跨机构协作。为此，本文设计了一种结合安全多方计算（MPC）和差分隐私（DP）的方案，使得多个数据持有者能够在不暴露原始数据的情况下联合训练合成数据生成器。MPC确保输入隐私，即任何一方都不会以未加密形式泄露其数据；DP则提供输出隐私，通过限制从发布的合成数据中泄露信息来保护个体隐私。作者使用多个真实RNA-seq数据集在联邦环境中进行了实验，结果表明该方法能够在数据分布在不同机构的情况下生成高质量、高实用性的合成数据集，同时有效保护隐私。该工作为隐私保护的跨机构基因组数据共享提供了可行的技术路径。

💡 推荐理由: 该方法直接解决了基因组数据共享与隐私保护之间的矛盾，允许医疗机构在合规前提下安全合作，对推动基因组学AI研究有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kecen Li, Chen Gong, Zinan Lin, Tianhao Wang, Xiaokui Xiao

该论文聚焦于差分隐私（DP）对比学习中的隐私-效用权衡问题。现有的DP对比学习方法因标准对比目标中样本间固有的强依赖性而遭受严重的效用退化：每个样本的梯度依赖于批次中的所有其他样本，这放大了DP噪声的影响。作者指出，有效的DP对比学习需要显式地减少这种内在的样本间依赖。为此，他们提出了DP-GCL，一个原则性的DP对比学习框架，通过限制组级贡献来结构化地限制梯度依赖。DP-GCL将每个批次划分为小的、不相交的组，并将可用的负样本限制在组内，从而局部化梯度影响并降低敏感度。为了弥补由此造成的负样本多样性损失，进一步引入了组内增强，在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的大量实验表明，在实际隐私预算下，DP-GCL在单模态和多模态对比学习中均持续提升了现有技术水平：与现有DP对比方法相比，图像分类准确率提升5.6%，图像-文本检索准确率提升20.1%。该工作为部署或共享在敏感用户数据上训练的嵌入模型提供了更实用的隐私保护方案。

💡 推荐理由: 该研究解决了DP对比学习中严重的效用退化问题，为安全工程师在保护用户隐私的同时保持模型可用性提供了新思路，尤其适用于需要发布或共享嵌入向量的场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#privacy-preserving-ml

Secure Cross-Silo Synthetic Genomic Data Generation

Differentially Private Contrastive Learning via Bounding Group-level Contribution