推荐 3.6
Conf: 50%
本文针对基因组数据的高度敏感性和访问限制,提出了一种跨机构安全合成基因组数据生成方法。由于基因组数据的隐私性,数据共享受到严格监管,阻碍了AI在基因组学中的发展。合成数据生成通过训练生成模型并采样保留相关统计信息的人工数据,可以在不泄露个体敏感信息的同时促进数据共享。但在许多应用中(如罕见病研究),单个机构的数据量不足以训练有效的生成模型,需要跨机构协作。为此,本文设计了一种结合安全多方计算(MPC)和差分隐私(DP)的方案,使得多个数据持有者能够在不暴露原始数据的情况下联合训练合成数据生成器。MPC确保输入隐私,即任何一方都不会以未加密形式泄露其数据;DP则提供输出隐私,通过限制从发布的合成数据中泄露信息来保护个体隐私。作者使用多个真实RNA-seq数据集在联邦环境中进行了实验,结果表明该方法能够在数据分布在不同机构的情况下生成高质量、高实用性的合成数据集,同时有效保护隐私。该工作为隐私保护的跨机构基因组数据共享提供了可行的技术路径。
💡 推荐理由: 该方法直接解决了基因组数据共享与隐私保护之间的矛盾,允许医疗机构在合规前提下安全合作,对推动基因组学AI研究有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)