#privacy-preserving-machine-learning 主题 - Cyber Security Daily Radar

👥 作者: Kelong Cong, Debajyoti Das 0001, Jeongeun Park 0001, Hilder V. L. Pereira

本文提出SortingHat，一种高效的私有决策树评估（PDTE）方案，利用同态加密（HE）和转译（transciphering）技术，解决现有PDTE方案在通信复杂度和计算效率上的瓶颈。传统方法中，客户端需对每个决策节点发送加密查询，导致通信开销与树深度线性增长。SortingHat通过将决策树转化为多项式表示，并采用HE的SIMD操作并行处理所有节点，同时引入转译技术将客户端端的对称加密开销转移到服务端，从而大幅降低通信量。实验表明，在深度为20的决策树上，SortingHat的通信量仅为现有最优方案的1/10，且在线阶段的计算时间与树深度无关。该方法特别适用于金融、医疗等对数据隐私要求严格的场景，允许客户端在服务端不获取任何明文信息的情况下使用模型。论文给出了详细的安全性证明和性能评估，证明了SortingHat在安全性和实用性上的优势。

💡 推荐理由: 私有决策树评估是隐私计算中的关键问题，SortingHat通过同态加密和转译大幅降低通信开销，提升实际部署效率，对隐私保护机器学习领域具有重要推动作用。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Sarabjeet Singh, Shreyas Singh, Sumanth Gudaparthi, Xiong Fan, Rajeev Balasubramonian

本文提出 Hyena，一个针对同态加密（HE）下深度神经网络推理进行优化的硬件-软件协同框架。针对云服务中用户数据隐私保护需求，HE 允许在加密数据上直接计算，但计算和数据移动开销巨大。Hyena 采用混合 HE 与多方计算（MPC）方案，相比纯全同态加密（FHE）更实用。主要贡献包括：(1) 新的数据打包技术，降低数据移动量；(2) 新的数据流，增加复用，减少旋转、密钥切换、NTT 转换等昂贵操作；(3) 在平衡流水线架构上评估，高效处理上述原语。实验表明，与广泛使用的 Channel-packing 相比，Hyena 实现 38 倍加速和 162 倍能耗降低，ResNet20 推理端到端延迟仅 11.4 毫秒，加速器面积 163 mm²，功耗 16.75 W。本文适用的读者包括隐私计算、硬件加速、安全推理领域的研究者和工程师。

💡 推荐理由: 同态加密推理是保护用户数据隐私的关键技术，但性能瓶颈严重。Hyena 通过软硬件协同优化，显著提升了加密推理的效率和能效，对推动隐私保护 AI 服务的实际部署有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yewon Jeong, Nayoung Jung, Hyeri Roh, Woo-Seok Choi

本文提出 Jaguar，一种用于加速私有卷积神经网络（CNN）推理的新型混合同态加密/两方安全计算（HE/2PC）系统。现有混合协议的性能瓶颈主要来自两个方面：一是使用素数模数同态算术进行卷积操作，这需要基于NTT的多项式乘法，开销较大；二是ReLU激活函数前的精度管理流程要求将比特宽度加倍，然后调用单独的截断协议，增加了通信和计算成本。Jaguar 基于一个核心设计选择——使用2的幂次方密文环——来解决这两个问题。首先，该设计使得 SPA-Conv（标量多项式累积卷积）成为可能，这是一种系数域卷积核，用标量-多项式累积替代了以NTT为中心的多项式乘法，从而降低卷积计算复杂度。其次，通过本地右移位实现精确的密文端截断，使得ReLU可以直接在目标定点精度下运行，无需后续的截断协议。尽管使用了2的幂次方环，但在客户端解密时，NTT仍然有用，用于处理单个多项式乘法。为此，Jaguar 引入了辅助NTT素数，在保持2的幂次方协议基础的同时，使解密复杂度仍为 O(N log N)。实验表明，在禁用AVX的ImageNet规模ResNet-18、ResNet-50和MobileNetV2上，与Cheetah相比，端到端延迟降低2.07-3.72倍，通信量降低1.16-1.76倍；与Rhombus相比，延迟降低2.16-3.36倍。适合对隐私保护机器学习、同态加密加速、安全推理系统设计感兴趣的研究者和工程师阅读。

💡 推荐理由: Jaguar 通过2的幂次方环设计，同时简化了卷积和ReLU截断协议，显著降低了混合HE/2PC CNN推理的延迟和通信开销，为隐私保护机器学习在资源受限场景（如边缘设备）的实用化提供了新路径。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lushan Song, Jiaxuan Wang, Zhexuan Wang, Xinyu Tu, Guopeng Lin, Wenqiang Ruan, Haoqi Wu, Weili Han

本文针对传统基于安全多方计算的隐私保护机器学习（MPL）通常采用点对点架构，各方平等且都能揭示输出结果，但实际业务场景往往需要层次化架构，其中存在一个特权方领导机器学习任务，只有特权方才能揭示最终模型，即使其他辅助方合谋也无法获取模型。此外，部分辅助方掉线时，学习过程应能继续以避免计算资源浪费和确保截止时间。针对这些需求，本文提出了一种鲁棒的多方学习框架pMPL（privileged Multi-Party Learning）。pMPL在秘密共享和混淆电路等密码学原语基础上，引入特权方概念，设计新的协议使得辅助方在掉线时不影响学习进程，且辅助方之间无法串通获取模型。实验表明，pMPL在保持隐私保护性能的同时，显著提升了系统对节点故障的鲁棒性，并降低了计算和通信开销。该工作为实际部署隐私保护机器学习提供了更贴近业务需求的架构方案。

💡 推荐理由: 该论文解决了现有隐私保护多方学习框架在层次化业务场景中缺乏特权方和鲁棒性的问题，推动了MPL从理论向实际应用迈进一步，值得安全多方计算和隐私计算研究者关注。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Huang Chenyu, Zhang Fan, Du Minxin, Chow Sherman SM, Chen Huangxun, Rao Huaming, Huang Danqing, Qian Bo, Chen Peng

本文研究的是在两方垂直分割数据上训练梯度提升决策树（GBDT）的隐私保护问题。GBDT在金融和医疗等领域广泛应用，但传统安全计算方法（如基于私有集合交集PSI）会暴露双方共享的记录标识符（IDs），存在隐私泄露风险。本文首次提出匿名GBDT训练协议，旨在隐藏记录ID。核心方法包括：设计双电路PSI，让双方交替作为接收方对本地特征执行“选取-求和”操作；利用可编程伪随机函数（OPPRF）将电路PSI输出作为共享状态传递；无需全局对齐，解决了ID隐藏代价随域大小增长的难题。此外，本文还改进了密文打包技术，将先前安全GBDT方案（Usenix Security'23）中基于环LWE的单指令多数据同态加密的代价减半。实验表明，该协议在效率上与有泄漏的方法相当。该技术可扩展到其他垂直分割数据分析场景。

💡 推荐理由: 本文提出的匿名GBDT训练协议，首次解决了垂直联邦学习中记录ID隐私泄露的问题，为金融、医疗等敏感数据协作提供了更安全的方案，具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Andreas Brüggemann, Robin Hundt, Thomas Schneider 0003, Ajith Suresh, Hossein Yalame

本文提出FLUTE协议，用于安全多方计算（MPC）中快速且安全的查找表（LUT）评估。传统的布尔电路在安全计算中存在较大的在线阶段开销，而查找表可以替代传统门电路（如AND、XOR），生成更紧凑的电路，并显著提升在线性能。已有工作利用LUT实现了安全浮点计算和隐私保护机器学习推理，但存在设置阶段开销大或在线性能不足的问题。FLUTE在两方设定下，通过创新的协议设计，在保持与最佳先前LUT协议相当的整体性能的同时，在线阶段性能提升达两个数量级。核心方法包括优化预处理阶段和在线阶段的通信轮次与计算量。作者还提供了基于Rust语言的开源实现，以及ABY2.0和silent OT布尔安全两方计算协议的实现。实验结果表明，FLUTE在在线阶段的延迟和通信量上均显著优于现有方案，为安全计算的实际应用提供了更高效的LUT评估工具。

💡 推荐理由: FLUTE大幅降低了安全多方计算中查找表评估的在线计算开销，直接推动隐私保护机器学习推理、安全浮点运算等场景的落地效率，对安全工程师设计高性能MPC系统具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Mohammad Partohaghighi, Roummel Marcia

本文提出了一种新的差分隐私随机梯度下降（DP-SGD）变体，称为分数阶差分隐私随机梯度下降（FO-DP-SGD）。传统的DP-SGD通过逐样本裁剪、子采样、高斯扰动和隐私会计来保护隐私，每步只释放当前裁剪并加噪的梯度求和。FO-DP-SGD在加噪之前将当前裁剪的梯度求和与过去若干步已释放的私有求和输出进行加权聚合，其中权重遵循幂律分布（分数阶记忆），从而在释放机制中引入分数阶记忆。该方法保持了标准的“求和-加噪-除以批量大小”结构。在Poisson子采样下的增/删邻接关系中，敏感性分析表明只有当前步的裁剪求和是新的数据依赖项，因此有效ℓ2敏感性至多为βC（C为裁剪阈值，β∈(0,1]控制当前步贡献）。因此，FO-DP-SGD可借助Poisson子采样高斯机制的标准每步Rényi差分隐私会计来获得全局(ε,δ)-差分隐私保证。FO-DP-SGD提供了一个研究私有优化中长期记忆效应的框架，分数阶、记忆窗口和混合系数共同调节当前步敏感性、信号保留和私有历史影响之间的权衡。在SVHN、CIFAR-10和CIFAR-100数据集上的实验表明，与DP-SGD、DP-Adam、DP-IS、SA-DP-SGD、ADP-AdamW、DP-SAT和DP-Adam-AC等基线相比，FO-DP-SGD在测试准确率和隐私-效用权衡方面均有提升。

💡 推荐理由: 该研究提出了一种新颖的差分隐私机制扩展，通过分数阶记忆改善隐私-效用权衡，可能为实际部署隐私保护深度学习提供更优方案，值得关注差分隐私优化的从业者深入研究。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yu Zheng, Chenang Li, Zhou Li 0001, Qingsong Wang

本文提出CARIBOU框架，一种面向多层图神经网络的隐私保护方案。核心创新在于将收缩图层（Contractive Graph Layer, CGL）与收敛隐私会计相结合，实现边缘级差分隐私（EDP）和节点级差分隐私（NDP）下的深度聚合，同时保持较高的模型效用。传统GNN隐私保护方法往往在深层网络中面临隐私预算快速耗尽或效用严重下降的困境。CARIBOU通过设计收缩消息传递机制，限制每一层信息的扩散幅度，从而在不显著增加敏感度的情况下支持更多层的聚合。结合收敛隐私会计，能够更精确地追踪总体隐私损失，避免过估计。实验表明，在多个图基准数据集上，CARIBOU在相同隐私预算下比现有方法显著提升分类准确率，尤其在深度GNN中优势更为明显。该工作为隐私敏感场景下的图数据分析提供了可行方案。

💡 推荐理由: 该研究解决了深层GNN隐私保护的难题，提出的收缩消息传递与收敛隐私会计方法具有通用性，可应用于社交网络分析、医疗图数据等需要严格隐私保护的场景。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chen Gong 0005, Zheng Liu, Kecen Li, Tianhao Wang 0001

该论文提出了PrivORL，这是首个将差分隐私（DP）应用于离线强化学习（RL）数据集合成的方法。离线RL通过共享预收集的轨迹或过渡数据来训练智能体，避免与环境的直接交互，在导航等关键任务中有效。然而，数据集可能包含敏感信息，存在隐私泄露风险。PrivORL利用扩散模型（用于过渡合成）和扩散Transformer（用于轨迹合成）在差分隐私保护下生成合成数据集。该方法采用先在公开数据集上预训练生成器，再在敏感数据集上使用DP-SGD微调的策略。此外，PrivORL引入好奇心驱动的预训练，通过好奇心模块的反馈增加合成数据的多样性，从而生成与敏感数据集高度相似且多样化的合成过渡和轨迹。在五个敏感离线RL数据集上的大量实验表明，与基线方法相比，PrivORL在DP过渡和轨迹合成中均实现了更优异的效用和保真度。论文提供了GitHub仓库的复现包。

💡 推荐理由: 离线强化学习在医疗、金融等敏感场景中的应用日益广泛，数据集隐私泄露可能造成严重后果。PrivORL提供了首个实用的差分隐私数据合成方案，有助于在保护隐私的同时推动离线RL研究的发展。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Judith Sáinz-Pardo Díaz, Álvaro López García

本文针对联邦学习中的隐私保护问题，提出了一套完整的隐私保护机器学习工作流，专注于敏感表格数据。首先，结合匿名化与差分隐私技术，在数据层面和模型训练层面提供隐私保障。其次，对客户端漂移（client drift）给出了正式定义，并设计了检测方法以减轻投毒攻击的影响。核心贡献在于提出了一种基于重识别风险度量的个性化全局差分隐私预算分配方法，允许为网络中不同客户端分配差异化的隐私预算。在公开的医疗记录数据集上的实验表明，与固定全局差分隐私预算的方案相比，所提出的个性化预算方法在两个误差指标上取得了更优的模型性能。该工作流涵盖了从数据预处理到模型聚合的全流程，为敏感数据场景下的联邦学习实践提供了系统性的隐私保护框架。

💡 推荐理由: 为联邦学习中的隐私预算分配提供了新颖的个性化思路，兼顾隐私与效用，并正式化客户端漂移概念以增强鲁棒性，对医疗等敏感领域的数据安全具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#privacy-preserving-machine-learning

SortingHat: Efficient Private Decision Tree Evaluation via Homomorphic Encryption and Transciphering.

Hyena: Balancing Packing, Reuse, and Rotations for Encrypted Inference.

Jaguar: Fast Private CNN Inference with Power-of-Two Homomorphic Arithmetic

pMPL: A Robust Multi-Party Learning Framework with a Privileged Party.

Practical Anonymous Two-Party Gradient Boosting Decision Tree

FLUTE: Fast and Secure Lookup Table Evaluations.

Deep Learning under Fractional-Order Differential Privacy

Convergent Privacy Framework for Multi-layer GNNs through Contractive Message Passing.

PrivORL: Differentially Private Synthetic Dataset for Offline Reinforcement Learning.

Privacy Preserving Machine Learning Workflow: from Anonymization to Personalized Differential Privacy Budgets in Federated Learning