#privacy-preserving-ml

共收录 5 条相关安全情报。

← 返回所有主题
👥 作者: Yunsheng Yuan, Xue Xiao, Lina Wang, Feng Li

该论文针对去中心化学习(Decentralized Learning)中的隐私保护问题展开研究。在去中心化学习中,多个智能体(Agent)在没有中心服务器的情况下协作训练全局模型,通过交换梯度信息来更新模型。然而,这种梯度交换会带来严重的隐私泄露风险,且实际应用中各智能体的训练数据通常是非独立同分布(Non-IID)的,这进一步增加了隐私保护的难度。为了解决这些问题,作者提出了一种名为DPDL的隐私保护去中心化学习算法。核心思想是结合差分隐私(Differential Privacy, DP)与相似度校准技术。具体来说,在每个训练轮次中,每个智能体在将交叉梯度(即其邻居的本地模型在自身私有数据上的导数)分享给邻居之前,先使用高斯噪声机制对其进行扰动,然后利用余弦相似度校准收到的来自邻居的扰动交叉梯度,最后将校准后的交叉梯度以动量方式聚合,用于更新本地模型。理论分析部分,作者不仅揭示了达到特定隐私保护级别所需的最小噪声水平,还证明了该算法在Non-IID数据下依然能实现线性加速(Linear Speedup)。实验方面,在真实数据集上验证了算法在防御隐私攻击和训练准确模型方面的有效性。该工作主要贡献于去中心化学习、差分隐私、Non-IID数据场景下的隐私保护算法设计。

💡 推荐理由: 去中心化学习在隐私敏感场景(如医疗、金融)中应用广泛,但梯度交换易泄露隐私。该工作针对Non-IID这一现实挑战提出了可证明隐私保证且保持训练效率的解法,对安全从业者理解并部署隐私保护机器学习有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 9.5
Conf: 50%
👥 作者: Nishat Koti, Arpita Patra, Rahul Rachuri, Ajith Suresh

该论文提出了一种名为Tetrad的框架,用于在最多一个被动腐败方存在的四参与方场景下,实现安全的多方计算(MPC),以支持隐私保护的机器学习训练和推理。Tetrad在环上运行,提供了公平性和鲁棒性两种安全级别。其公平乘法协议仅需5个环元素,优于先前最先进的Trident协议(Chaudhari等人,NDSS'20)。Tetrad的一个关键特性是鲁棒性在公平协议之上是免费获得的。其他亮点包括:概率截断无开销、多输入乘法协议、用于切换计算域(算术与布尔电路)的转换协议,以及定制化的混淆电路方法。作者在LeNet和VGG16等深度神经网络上对Tetrad的训练和推理性能进行了基准测试,结果显示,与Trident相比,Tetrad在机器学习训练中快达4倍,推理中快达5倍,且部署成本低至Trident的六分之一。该工作适用于需要保护模型或数据隐私的联合学习场景,以及任何需要三台以上服务器但容错性要求较高的安全计算环境。

💡 推荐理由: Tetrad展示了四方安全计算在隐私保护机器学习中的显著性能提升,且鲁棒性免费获得,对于实际部署安全MPC应用具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xuanqi Liu, Zhuotao Liu, Qi Li 0002, Ke Xu 0002, Mingwei Xu 0001

本文针对协作式神经网络训练中日益突出的数据隐私挑战展开研究。传统方法如联邦学习(FL)完全忽略模型隐私,而同态加密(HE)只能支持单一数据提供方,扩展性受限。现有的安全多方计算(MPC)框架虽能提供合理吞吐并同时保护数据与模型隐私,却严重依赖计算服务器之间的非串通假设(non-colluding assumption),放松该假设仍是开放问题。为此,论文提出Pencil,这是首个无需非串通假设、同时实现数据隐私、模型隐私以及支持多个数据提供方扩展的协作学习私有训练框架。其核心设计理念是基于高效的两方协议构建多方协作训练协议,并确保在模型训练过程中切换到不同数据提供方不会引入额外开销。作者引入了几种新颖的密码学协议来实现该设计,并进行了严格的安全与隐私分析。全面评估显示:(i) 明文训练模型与使用Pencil私有训练的模型测试准确率几乎相同;(ii) 训练开销大幅降低:吞吐量较现有技术提升10~260倍,通信量减少两个数量级;(iii) Pencil能抵御现有及自适应(白盒)攻击。该工作对隐私保护的机器学习领域具有重要推进意义。

💡 推荐理由: Pencil首次在协作学习中同时实现数据隐私、模型隐私和多提供方扩展性,且无需依赖计算服务器的非串通假设,解决了现有MPC框架的根本性安全缺陷。

🎯 建议动作: 研究跟进:关注Pencil的具体实现与后续改进,评估其在自身业务场景下的适用性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 3.6
Conf: 50%
👥 作者: Daniil Filienko, Martine De Cock, Sikha Pentyala

本文针对基因组数据的高度敏感性和访问限制,提出了一种跨机构安全合成基因组数据生成方法。由于基因组数据的隐私性,数据共享受到严格监管,阻碍了AI在基因组学中的发展。合成数据生成通过训练生成模型并采样保留相关统计信息的人工数据,可以在不泄露个体敏感信息的同时促进数据共享。但在许多应用中(如罕见病研究),单个机构的数据量不足以训练有效的生成模型,需要跨机构协作。为此,本文设计了一种结合安全多方计算(MPC)和差分隐私(DP)的方案,使得多个数据持有者能够在不暴露原始数据的情况下联合训练合成数据生成器。MPC确保输入隐私,即任何一方都不会以未加密形式泄露其数据;DP则提供输出隐私,通过限制从发布的合成数据中泄露信息来保护个体隐私。作者使用多个真实RNA-seq数据集在联邦环境中进行了实验,结果表明该方法能够在数据分布在不同机构的情况下生成高质量、高实用性的合成数据集,同时有效保护隐私。该工作为隐私保护的跨机构基因组数据共享提供了可行的技术路径。

💡 推荐理由: 该方法直接解决了基因组数据共享与隐私保护之间的矛盾,允许医疗机构在合规前提下安全合作,对推动基因组学AI研究有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Kecen Li, Chen Gong, Zinan Lin, Tianhao Wang, Xiaokui Xiao

该论文聚焦于差分隐私(DP)对比学习中的隐私-效用权衡问题。现有的DP对比学习方法因标准对比目标中样本间固有的强依赖性而遭受严重的效用退化:每个样本的梯度依赖于批次中的所有其他样本,这放大了DP噪声的影响。作者指出,有效的DP对比学习需要显式地减少这种内在的样本间依赖。为此,他们提出了DP-GCL,一个原则性的DP对比学习框架,通过限制组级贡献来结构化地限制梯度依赖。DP-GCL将每个批次划分为小的、不相交的组,并将可用的负样本限制在组内,从而局部化梯度影响并降低敏感度。为了弥补由此造成的负样本多样性损失,进一步引入了组内增强,在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的大量实验表明,在实际隐私预算下,DP-GCL在单模态和多模态对比学习中均持续提升了现有技术水平:与现有DP对比方法相比,图像分类准确率提升5.6%,图像-文本检索准确率提升20.1%。该工作为部署或共享在敏感用户数据上训练的嵌入模型提供了更实用的隐私保护方案。

💡 推荐理由: 该研究解决了DP对比学习中严重的效用退化问题,为安全工程师在保护用户隐私的同时保持模型可用性提供了新思路,尤其适用于需要发布或共享嵌入向量的场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)