👥 作者: Ari Biswas, Graham Cormode, Yaron Kanza, Divesh Srivastava, Zhengyi Zhou
本文提出并研究了在差分隐私保护下释放层次重击者(Hierarchical Heavy Hitters, HHH)的问题。层次重击者是经典重击者问题的推广,最早由Cormode等人在VLDB 2003中引入,用于在数据流中识别在层次结构上显著的项。尽管数据流中的HHH查找已被广泛研究,但在底层数据包含隐私信息时,如何安全地释放HHH结果尚未被探索。本文分别考察了非流式(静态数据集)和流式两种场景。在非流式设置中,作者发现了一个令人惊讶的结果:对于任何前缀,估计残差计数(residual count)的相对误差与层次的高度以及流中重击者的数量无关。这意味着即使在复杂的层次结构下,相对精度也能保持稳定。在流式设置中,虽然HHH的精确版本具有较低的全局灵敏度(因为计数查询是1-敏感的),但用于流式处理的近似函数却导致了较高的全局灵敏度,该灵敏度与可用空间呈线性关系。尽管如此,作者证明在流式设置中,估计频率的绝对误差与可用空间无关,从而突破了空间限制带来的障碍。本文的主要贡献包括:首次系统性地研究差分隐私HHH释放问题;在非流式场景中证明了一个与层次规模无关的误差界;在流式场景中给出了绝对误差独立于空间的证明。读者需要具备差分隐私、数据流算法以及层次重击者问题的基础知识。
💡 推荐理由: 层次重击者问题在许多应用(如网络监控、频次分析)中至关重要,但直接发布结果可能泄露用户隐私。本文首次在差分隐私框架下解决了这一难题,为隐私保护的数据发布提供了理论支撑,尤其适用于需要兼顾层次结构准确性和个人隐私的场景。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Rasmus Pagh, Sia Sejer
本文研究持续观察下私有化发布k维向量更新的问题。初始向量为零向量,在时间点t_i上通过添加x^{(i)}进行更新,其中t_i∈[T],x^{(i)}在k维单位球B_k内。两个数据集被认为是相邻的,如果它们的对称差大小不超过1。持续发布需要在每个时间步t=1,...,T输出累加和A^{(t)} = ∑_{i: t_i ≤ t} x^{(i)}。经典方法可以O(kT)时间、polylog(T)噪声幅度释放近似值。本文考虑每个时间步仅需发布A^{(t)}的子集,提出一种快速高斯机制,能够在常数时间内采样噪声向量中任意指定条目,同时精确复制二叉树机制下高斯噪声的分布。该改进基于布朗桥构建的新数据结构,突破了已知O(log T)时间界限。文章展示了两个数据管理应用:1) 正交范围计数查询的动态数据结构,在隐私/准确性/空间权衡上优于先前结构;2) 连接大小估计,同时改进了高概率界。本文适合对差分隐私、数据流算法和数据结构设计感兴趣的研究者。
💡 推荐理由: 提出常数时间噪声采样方法,显著提升持续观察下差分隐私机制的效率,有助于构建更实用的隐私保护数据发布系统。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kaan Arda Akyol, Jakub Kacper Szeląg, Aydin Abadi, Maha Alghamdi, Ghadah Albalawi, Ghouse Ibrahim Kaleelullah, Hilal Tutus, Sarah Al Subaiei, Shardul Kapse, Syed Mohammed Raheeb, Mujeeb Ahmed, Rehmat Ullah
该论文提出并评估了一个端到端的联邦学习系统,用于在边缘设备上进行无监督的12导联心电图异常检测。系统结合了三种自编码器架构(VanillaAE、ConvAE、VAE),基于Flower框架实现跨十个模拟医院的联邦平均聚合,并集成客户端差分隐私(DP-SGD,使用Rényi-DP会计)和8位整数量化后训练压缩(在树莓派4上测试)。实验使用PTB-XL数据集,表明联邦学习在所有架构上达到或超过集中式基准(ConvAE的ROC-AUC为0.782),隐私预算ε=4被推荐为临床操作点。INT8量化使模型大小减半,树莓派延迟降低44%,且AUC损失小于0.12%。关键发现是差分隐私和量化惩罚可经验独立叠加,因此实践者无需在强隐私保证和小型边缘部署之间权衡。该工作是首个结合联邦学习、形式化(ε,δ)-差分隐私、无监督重建检测和量化AArch64部署的系统,为医疗物联网中的隐私合规实时监测提供了工程基准。
💡 推荐理由: 该工作解决了医疗物联网中ECG实时监测的三个核心矛盾:合法级隐私(GDPR/HIPAA)、边缘硬件实时推理、非独立同分布数据下的检测质量。为安全从业者提供了工程化的隐私-效率-精度权衡参考。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Takao Murakami, Yuichi Sei, Reo Eriguchi
本文针对差分隐私(DP)的 shuffle 模型中存在的信任问题展开研究。在标准 shuffle 模型中,一个 shuffle 器随机排列用户数据以实现高精度和隐私保护。然而,近期研究表明大多数现有 shuffle 协议容易遭受数据收集者与用户之间的合谋攻击。为应对此问题,研究者提出了增强型 shuffle 模型,其中 shuffle 器引入随机采样和虚拟数据添加。但该模型仍面临一个关键开放问题:如何确保 shuffle 器严格遵循协议且不与数据收集者合谋?本文通过全面探索基于可信执行环境(TEE)的增强型 shuffle 模型来解决这一信任问题。首先,作者提出了一种新的隐私概念——全遗忘差分隐私(Fully Oblivious DP, FODP),它强化了 DP 以防止基于外部/内部内存访问模式和控制流的各种 TEE 侧信道攻击。接着,他们提出了一个基于内存大小混淆(memory-size obfuscation)的通用 FODP 算法框架,并在此框架内设计了三种具体算法。通过使用 count-min sketch 并优化哈希次数,进一步提升了算法效率。他们在 Intel SGX 平台上评估了所提算法,并与九种基线方法进行了比较,实验结果证明了其有效性。该工作为在增强型 shuffle 模型中实现可验证的、抗侧信道的隐私保护频率估计提供了理论支撑和实践方案。
💡 推荐理由: 本文解决了DP shuffle模型中shuffler的信任难题,通过结合TEE提出全遗忘DP概念,有效防御针对TEE的侧信道攻击,对实际部署隐私保护协议具有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hung Dang, Tue Nguyen, Minh Vo
本文提出 EnclaveScale,一种分布式硬件辅助遥测架构,旨在解决数据中心电源遥测中传感器数据伪造和隐私泄露问题。现有加密技术对高频率(如10 Hz)流式数据扩展性差,且无法认证数据源,允许恶意主机注入虚假传感器输入。EnclaveScale 利用 Intel DCAP 远程认证、差分隐私噪声注入和拜占庭拒绝机制,构建了一个提取后(post-extraction)验证流水线。该架构在32个 GCP 机密虚拟机(Confidential VMs)上实现,达到0%的提取后攻击成功率。此外,为了缓解数据摄取前的漏洞,提出了基于 SPDM(Security Protocol and Data Model)认证的第一英里层。在全局聚合阶段,全局聚合飞地(Global Aggregation Enclave)在容量加权聚合前验证所有加密证明。实验评估显示,每个飞地的稳态吞吐量达131,406样本/秒,认证开销摊销至0.23微秒/样本。在基于 NVML 采样的 H100、A100 和 L4 真实轨迹上,EnclaveScale 的动态编排边际误差为1.3 MW,而诚实聚合器的中心差分隐私基线误差为0.1 MW。该架构为多租户动态电源编排提供了安全基础,通过边缘差分隐私在局部混淆亚秒级异常,并通过全局聚合时的空间稀释保护宏观工作负载的机密性。本文主要贡献包括:首次提出结合硬件辅助飞地与边缘差分隐私的电源遥测框架;设计并实现了提取后验证与拜占庭拒绝机制;通过实验证明了高吞吐、低开销和强大的安全保证。
💡 推荐理由: 数据中心电源遥测是保障 AI 基础设施可靠性的关键环节,EnclaveScale 通过硬件飞地和差分隐私创新性地解决了传感器欺骗与隐私泄露风险,为安全工程师提供了构建可信遥测管道的新范式。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zheng Liu, Chen Gong, Terry Yue Zhuo, Zhou Yang, Kecen Li, Wenlong Meng, Xinwen Hou, Yu Liu, Xiaochen Li
大型语言模型在指令-代码对上进行微调时,可能会记忆并泄露敏感的训练数据。现有的差分隐私(DP)代码生成方法主要保护代码片段,但假设提示(prompt)是公开的,这无法应对现实场景中提示也可能包含敏感信息的情况。当提示在生成过程中不能被显式学习或使用时,代码合成会遭受严重的效用下降以及多样性和保真度降低。为了解决这些挑战,本文提出了 PrivCode-Plus(论文标题为 PrivCode++),这是首次探索在 LLM 微调中同时考虑提示和代码片段为敏感信息的 DP 代码生成工作。PrivCode-Plus 引入了一个两阶段差分隐私框架,并设计了一个隐私无关潜在条件模块(Privacy-Free Latent Conditioning),使得无需直接访问敏感提示或代码即可进行有效的 DP 微调和数据合成。大量实验表明,PrivCode-Plus 在效用上显著高于基线方法,与放松隐私假设的方法相比仍具有竞争力,并能提供更强的隐私保证。本文的主要贡献包括:1)首次在代码生成任务中同时保护提示和代码;2)提出了一种隐私无关的潜在条件机制,缓解了隐私预算分配导致的效用下降;3)通过实验验证了方法的有效性。适合对 LLM 隐私保护、差分隐私、安全代码生成感兴趣的研究人员阅读。
💡 推荐理由: 该工作首次在代码生成中同时保护提示和代码,解决了现有DP方法忽略提示敏感性的问题,对提升LLM微调隐私保护有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Wei, Alexander Bienstock, Antigoni Polychroniadou
该论文研究了差分隐私中用于T维实数向量查询的加性噪声机制。高斯机制因其简单性和强隐私保证而成为最广泛使用的机制。本文首先证明,当维度T趋于无穷大时,在强隐私设置下,没有任何加性噪声机制能够渐近地改善高斯机制的隐私-效用权衡,从而为高斯机制的选择提供了理论依据。其次,本文提出了一类新的球面广义伽马差分隐私机制,该类机制包含高斯机制和近期研究的ℓ2机制。论文识别出该类机制中在低维场景下同时优于高斯和ℓ2机制的成员,并给出了该类机制所有成员的紧致组合性质,回答了Joseph等人关于ℓ2机制的开放问题。实验部分通过理论分析和数值模拟验证了所提机制的有效性。
💡 推荐理由: 为差分隐私中高斯机制的广泛使用提供了渐近最优性的理论支撑,同时提出的新机制在低维场景下可提供更优的隐私-效用权衡,对实际差分隐私系统的设计具有指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xian Chen, Ruobing Bai, Pan Peng
本文首次研究了差分隐私下的范围子图计数问题(DPRSC)。子图计数是图分析中的基本问题,传统方法通常计算整个图中特定模式的出现次数。然而,实际应用常需对由多维属性范围选中的顶点诱导子图进行查询,同时保护隐私。差分隐私子图计数面临重大挑战:子图计数是非线性函数且敏感度高,单个边的修改可能影响大量子图出现次数。为此,本文提出了一种高效算法,通过引入子图投影,将DPRSC转化为加权正交范围计数问题。利用范围树和局部敏感度估计,实现了低加性误差的私有查询响应。此外,还通过将重构攻击归约为DPRSC并利用离散理论,证明了任何差分隐私算法都必须承受随维度指数增长的加性误差。实验表明,所提算法在准确性和运行时间上显著优于基线方法,同时保持强隐私保证。该研究为图数据分析中的隐私保护提供了新工具,尤其适用于社交网络、生物信息学等需敏感数据查询的场景。
💡 推荐理由: 首次解决了带范围约束的子图计数差分隐私问题,为图数据分析中的隐私查询提供了理论基础和实用算法。
🎯 建议动作: 学术关注
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Andrew Cascio, KinChin Tong, Daniel Kifer, Zeyu Ding, Danfeng Zhang
该论文提出 DP4SQL,一个支持灵活隐私策略的差分隐私 SQL 系统。现有差分隐私 SQL 系统仅支持固定的隐私策略,例如所有表都必须保护记录存在性或内容,无法处理混合隐私需求(如部分公开列、不同字段不同保护级别)。DP4SQL 允许数据管理者自定义每张表、每个字段的可否认性要求,避免“一刀切”策略导致的过度保护或噪声注入不足。系统通过引入声明式隐私策略语言和新的查询稳定性计算规则,自动适配不同隐私需求下的噪声量。实验表明,在真实数据集上,DP4SQL 相比现有系统可在满足差异化隐私要求的同时,显著降低查询答案的噪声。该工作适用于需要精细隐私控制的数据库场景,如医疗、金融等多表关联数据发布。
💡 推荐理由: 解决了现有差分隐私 SQL 系统缺乏隐私策略灵活性的痛点,使数据管理者能根据实际需求平衡隐私与效用。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Elena Ghazi, Jawad Nasser, Flavio Calmon, Ibrahim Issa
该论文研究在本地差分隐私(LDP)约束下进行二元假设检验的最优机制设计问题。具体场景是:每个观测数据从大小为 k 的有限字母表中抽取,服从两个已知分布 P0 或 P1 之一,先通过一个 ε-本地差分隐私机制 Q 进行私有化,再基于私有化后的输出推断原始数据来自哪个分布。论文以 f-散度(包括总变差、KL散度、hockey-stick散度等)衡量两个输出分布之间的差异,以此作为检验效用的度量。此前的工作虽然建立了最优机制的结构性质,但仅能给出指数时间复杂度的算法。该论文证明了在任意 ε 和任意 f-散度目标下,将字母表按似然比排序后,存在一个最优机制将排序后的字母表划分为连续块,并对块标签施加随机响应(Randomized Response)。作者将这类机制命名为“排序-划分-随机化(SPR)机制”。基于这一刻画,论文进一步提出了一种精确的动态规划算法,能够在 O(k^3) 时间内计算最优机制,并且通过限制输出数量为 ℓ 可将复杂度降至 O(ℓk^2)。该结果使得在全隐私预算范围内(而非仅渐近隐私体制下)高效计算并刻画精确最优机制成为可能。主要贡献在于:1) 揭示了 LDP 下二元假设检验最优机制的简洁结构;2) 给出了多项式时间算法,解决了此前方法计算代价过高的问题;3) 提供了完整的理论分析和实验验证(尽管摘要未提实验细节)。适合对差分隐私、信息论、统计推断理论感兴趣的研究人员阅读。
💡 推荐理由: 该工作为本地差分隐私下的二元假设检验提供了首个多项式时间最优机制算法,解决了长期存在的理论瓶颈,有助于推动差分隐私在安全检测、A/B测试等场景的实际应用。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ivoline C. Ngong, Brad Stenger, Joseph P. Near, Yuanyuan Feng
本文评估了四种Python开源差分隐私工具(DiffPrivLib、Tumult Analytics、PipelineDP和OpenDP)的可用性。研究背景是差分隐私(DP)已成为隐私保护数据分析的黄金标准,但在实际数据集和系统中实施仍具挑战。最近开发的DP工具旨在简化实施过程,但缺乏系统性的可用性评估。作者通过对24名具有不同DP知识的美国数据从业者进行用户研究,评估了这些工具的易用性。研究采用任务驱动方法,观察参与者在完成典型DP任务(如添加噪声、计算敏感度、设置隐私预算等)时的表现,并收集主观反馈。结果表明:使用这些工具有助于DP新手更好地理解概念;API设计和文档质量对成功实施DP至关重要;用户满意度与任务完成度高度相关。例如,Tumult Analytics在文档和API一致性上得分较高,而DiffPrivLib在易用性方面稍逊。研究还发现了常见困难,如参数选择不直观、调试困难等。基于证据,作者提出了改进DP工具可用性的建议,包括更清晰的错误消息、更完善的示例代码、更一致的API设计等,以促进DP在工业界的广泛采用。本文适合DP工具开发者、隐私工程师及关注隐私保护技术落地的数据科学家阅读。
💡 推荐理由: 差分隐私工具的实际采用取决于其易用性,本研究为改进工具设计提供了实证依据,能帮助安全团队降低DP实施门槛,从而在数据分析中更有效地保护用户隐私。
🎯 建议动作: 工具开发者应根据研究结论优化API和文档;数据团队可参考文中工具对比选择合适方案。
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhiyu Sun, Jie Fu, Xinpeng Ling, Huifa Li, Zhili Chen
本文首次系统性地研究了k-近邻查询(kNNQ)中的位置隐私泄露问题。kNNQ是位置服务(如“附近的人”)的核心组件,但长期以来其隐私风险被忽视。作者提出了两种针对kNNQ的位置推断攻击:几何相交位置推断攻击(GI-LIA)和零阶优化位置推断攻击(ZO-LIA),通过分析查询结果中的距离或排名信息,攻击者可推断出用户的确切位置,从而证明kNNQ存在固有的隐私风险。为抵御此类攻击,作者提出了差分隐私框架DPRS,其核心思想是在受限扰动区间内引入拒绝采样机制,以减少过度噪声注入造成的距离失真。同时,设计了一种私有区间构造算法来构建扰动区间,使得拒绝采样机制能够在隐私保护和查询效用之间取得更优的权衡。在真实空间数据集上的大量实验表明,DPRS在隐私保护和查询效用方面均优于现有方法。该研究揭示了kNNQ隐私漏洞,并提供了实用的防御方案,适合LBS安全研究者、隐私工程师以及位置服务开发者阅读。
💡 推荐理由: 首次揭示k-近邻查询(kNNQ)的隐私漏洞,并提出差分隐私防御框架,对位置服务的安全性有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Naima Tasnim, Lalitha Sankar, Oliver Kosut
本文提出了一种名为 DP-MacAdam 的新型差分隐私机制,旨在解决差分隐私随机梯度下降(DP-SGD)中固定梯度裁剪阈值导致的局限性。现有自适应裁剪算法(如 AdaClip)虽然能根据梯度经验均值和方差动态调整裁剪参数,从而获得更有效的下降方向,但并未利用这些估计值来加速训练(即缺乏动量机制)。另一方面,DP-Adam 算法采用类似 Adam 的动量更新,利用梯度均值和方差加速训练,但其裁剪阈值仍然固定。DP-MacAdam 创新性地将自适应裁剪与自适应动量相结合,使用同一组均值与方差估计同时指导裁剪和动量更新,从而兼顾隐私保护与训练效率。理论分析表明,该算法能够无偏地估计梯度方差。实验部分在标准数据集(如 MNIST、CIFAR-10)上评估了模型效用与隐私保证,结果显示 DP-MacAdam 在相同隐私预算下相比 DP-SGD、AdaClip 和 DP-Adam 基线取得了更高的模型准确率,并且无需手动调整裁剪阈值,降低了使用门槛。该工作适用于隐私保护机器学习领域的研究者和工程实践者,尤其对希望在不牺牲模型性能的前提下加强训练数据隐私保护的组织具有参考价值。
💡 推荐理由: 为差分隐私训练提供了一种既保持隐私预算又提升模型效用的实用方法,减少了超参数调优负担,有助于推动隐私保护机器学习在现实场景中的部署。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yunsheng Yuan, Xue Xiao, Lina Wang, Feng Li
该论文针对去中心化学习(Decentralized Learning)中的隐私保护问题展开研究。在去中心化学习中,多个智能体(Agent)在没有中心服务器的情况下协作训练全局模型,通过交换梯度信息来更新模型。然而,这种梯度交换会带来严重的隐私泄露风险,且实际应用中各智能体的训练数据通常是非独立同分布(Non-IID)的,这进一步增加了隐私保护的难度。为了解决这些问题,作者提出了一种名为DPDL的隐私保护去中心化学习算法。核心思想是结合差分隐私(Differential Privacy, DP)与相似度校准技术。具体来说,在每个训练轮次中,每个智能体在将交叉梯度(即其邻居的本地模型在自身私有数据上的导数)分享给邻居之前,先使用高斯噪声机制对其进行扰动,然后利用余弦相似度校准收到的来自邻居的扰动交叉梯度,最后将校准后的交叉梯度以动量方式聚合,用于更新本地模型。理论分析部分,作者不仅揭示了达到特定隐私保护级别所需的最小噪声水平,还证明了该算法在Non-IID数据下依然能实现线性加速(Linear Speedup)。实验方面,在真实数据集上验证了算法在防御隐私攻击和训练准确模型方面的有效性。该工作主要贡献于去中心化学习、差分隐私、Non-IID数据场景下的隐私保护算法设计。
💡 推荐理由: 去中心化学习在隐私敏感场景(如医疗、金融)中应用广泛,但梯度交换易泄露隐私。该工作针对Non-IID这一现实挑战提出了可证明隐私保证且保持训练效率的解法,对安全从业者理解并部署隐私保护机器学习有参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiaobo Huang, Fang Xie
本文针对差分隐私随机梯度下降(DPSGD)中隐私核算不严谨的问题进行研究。DPSGD通过在梯度上添加噪声并裁剪梯度来保护隐私,但这会导致模型效用显著下降且收敛缓慢。先前的工作,特别是差分隐私选择性更新与释放(DPSUR)算法,通过选择性更新部分梯度实现了较好的模型效用,但其隐私核算忽略了选择性释放机制引入的采样概率变化,从而削弱了隐私保证的严谨性。为了克服这一局限,本文重新评估了选择性释放机制的隐私分析,并提出了一种新算法——基于裁剪梯度的差分隐私选择性释放(DPSR-CG)。该算法通过严格的、新推导的隐私分析,在多个数据集(MNIST、CIFAR-10、IMDB和FMNIST)上进行了大量实验,结果表明DPSR-CG在保持严格隐私保证的同时,实现了卓越的模型性能。本文的核心贡献是修正了隐私核算缺陷,并提供了更高效的隐私-效用平衡方案。适合对差分隐私、机器学习隐私保护感兴趣的研究人员和工程师阅读。
💡 推荐理由: 该工作纠正了现有选择性释放DPSGD隐私核算的漏洞,提供了更严格的隐私保证,对实际部署差分隐私机器学习具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Farhin Farhad Riya, Olivera Kotevska, Jinyuan Stella Sun
联邦学习(FL)中,异构差分隐私(HDP)允许客户端根据自身策略和数据敏感度选择不同的隐私预算(ε_i)。现有HDP-FL系统常采用ε感知的服务器聚合,通过根据客户端声明的隐私预算重新加权其梯度更新来提升模型效用。然而,联邦学习中的梯度更新保留了由非独立同分布(non-IID)数据引起的结构模式,这些额外信号为诚实但好奇的服务器提供了新的推断机会。本文首先展示了一种隐私推理攻击:服务器利用梯度去噪和代理建模,在现实知识约束下,能够推断客户端的分布属性并在训练轮次间链接同一客户端的更新,通过代理推断准确率和链接成功率衡量。Shuffle-Model作为一种防御手段,通过匿名化更新来源来抵御此类风险,但其与HDP-FL的ε感知聚合本质不兼容。为解决此矛盾,本文提出IntraShuffler,一种面向HDP-FL系统的中间件防御框架。IntraShuffler引入隐私感知的洗牌机制:将客户端分组到隐私兼容的桶中,在每个桶内执行参数级洗牌,以破坏持续的梯度结构,同时保留ε感知聚合。在四个不同数据集上的实验表明,IntraShuffler将梯度可恢复性降低超过60%,代理推断准确率从0.78降至0.33,同时在不同FL聚合规则下保持了可比的模型效用。
💡 推荐理由: 揭示了HDP-FL中ε感知聚合的隐私漏洞,并提出了一种兼容的防御方案,对联邦学习隐私保护实践有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Peihan Liu, Lucas Rosenblatt, Weiwei Kong, Natalia Ponomareva, Gautam Kamath, Rachel Cummings, Roxana Geambasu, Yu Gan, Lillian Tsai, Alex Bie
差分隐私(DP)文本合成技术旨在通过生成合成数据来解锁敏感语料库,使其可用于模型训练,同时保护隐私。然而,现有评估基准存在重大局限性:它们使用的任务通常即使不经过训练也能近乎解决,因此强基准性能并不能证明DP合成数据能够替代原始数据访问。为了填补这一评估空白,本文提出了ContinuousBench——一个持续自动更新的基准,用于衡量DP合成文本带来的能力增益。每个季度,ContinuousBench会发布一个全新的训练语料库及对应的问答(QA)数据集,这些数据被设计为:(1)没有语料库则无法解决;(2)在DP下可学习,因为测试知识由数百条独立记录支持。研究人员从训练语料库中生成DP合成数据,并通过标准化的训练和评估工具衡量能力提升。ContinuousBench包含两个赛道:Geminon,一个关于虚构生物的程序生成数据集;以及News,一个持续爬取的公共新闻文章流。实验结果表明,虽然标准基准已近乎饱和,但在ContinuousBench上,非私有合成数据能够从原始语料库中传递大量知识,而最先进的DP合成方法即使在ε=100的高隐私预算下也基本无法做到这一点。这揭示了当前DP合成文本在传递新知识和能力方面的严重不足,对依赖DP合成数据作为数据访问替代方案的研究与实践提出了挑战。
💡 推荐理由: 该基准揭示了现有DP合成文本在传递语料库特有知识方面的根本性失败,促使安全从业者重新评估DP合成数据在敏感数据共享与模型训练中的实际效用,并推动更有效的DP合成方法研发。
🎯 建议动作: 研究跟进:关注ContinuousBench后续版本及基于该基准的DP合成方法改进成果,评估自身场景下DP合成数据的实际能力增益。
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Andrea Gadotti, Florimond Houssiau, Meenatchi Sundaram Muthu Selva Annamalai, Yves-Alexandre de Montjoye
该论文针对苹果公司在其本地差分隐私(LDP)系统中使用的Count Mean Sketch(CMS)机制进行了实际的隐私保证量化研究。苹果的CMS用于从用户设备收集使用数据,其宣称的隐私保证基于ε=4的LDP模型。然而,作者指出该保证仅在单次上报的孤立场景下成立,而现实系统中同一用户会多次上报数据,且不同用户之间可能存在关联。为了评估实际隐私风险,作者提出了池推理攻击(pool inference attacks),该攻击利用攻击者拥有的辅助信息(如用户的部分真实数据)以及观察到的多次CMS上报,通过统计推断来恢复用户的其他敏感属性。实验使用了苹果官方报告中公开的参数(如m=256, h=2, ε=4),并基于模拟数据和真实分布进行评估。结果显示,在苹果部署的参数下,池推理攻击的成功率远高于理论预期:例如,当攻击者已知用户一个hash值对应的位置时,能准确推断出另一个hash值对应的真实值,导致实际隐私损失远超ε=4的理论界限。这表明苹果的CMS机制在实践中无法提供所声称的强隐私保证,尤其对于长期或频繁上报的用户。论文的主要贡献包括:1)首次系统性地对苹果CMS进行实际隐私量化;2)提出池推理攻击框架,可推广到其他LDP机制;3)揭示了理论隐私模型与真实风险之间的差距,呼吁重新评估LDP部署中的参数选择。该研究对隐私保护实践、差分隐私部署的安全性以及监管合规具有重要警示意义。
💡 推荐理由: 揭示了苹果等公司使用的LDP机制在实际部署中的隐私风险远高于理论保证,直接影响数亿用户的隐私安全,并提醒安全工程师不能盲目信赖理论隐私预算。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Alejandro Russo, Elisabet Lobo Vesga, Marco Gaboardi
该论文关注差分隐私查询中商数的准确性评估问题。差分隐私通过在统计查询中添加校准噪声来保护隐私,然而现有工具大多关注隐私保护本身,很少提供关于查询结果准确性的信息,尤其是对于数据依赖的计算(如平均值或差分隐私和的商)。本文提出了一种基于不确定性传播(uncertainty propagation)原理的新方法,用于计算此类计算的置信区间(即α-β精度)。该方法识别了分析误差可预测的条件,揭示了两个关键不变性:分析误差随着数据集规模的增大而改善;数值变异性更高的数据集需要更大的规模才能实现准确估计。为了便于采用,作者还提出了精度调节器(accuracy tuners),用于快速确定最小数据集规模,并探索隐私预算与精度估计可能性之间的权衡。通过跨多种场景的实证评估,验证了分数不确定性(fractional uncertainties)在计算具体α-β误差方面的适用性。该研究为差分隐私系统的用户提供了实用的准确性指导,有助于在隐私保护与数据效用之间取得平衡。
💡 推荐理由: 该研究填补了差分隐私工具中准确性评估的空白,使数据从业者能够为商类查询提供置信区间,从而更合理地设定隐私预算与数据集规模。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Abdelrahman Abouelenein, Marwan Torki
该论文研究面向检索增强推理的差分隐私数据存储生成问题。现代设备端AI系统常依赖检索增强推理,需要共享或发布数据存储(datastore),但可能泄露个体隐私。差分隐私(DP)提供形式化保证,使个体贡献在对抗分析下不可区分。本文提出一种基于哈希的概率生成框架,用于创建和发布差分隐私数据存储。方法首先使用局部敏感哈希(LSH)将高维数据高效划分为多个桶(bucket),然后向每个桶的累积投票中添加校准的DP噪声,生成跨类别的概率分布。该方法适用于任何需要安全创建和发布键值数据存储的管道。在7个数据集上进行实验,样本量和类别数(2-14类)各异。在epsilon=5时,发布的DP数据存储在保持强隐私保护的同时,平均准确率仅下降2.6%。此外,对成员推断攻击的抵抗力进行基准测试,将攻击准确率降至53.60%。核心贡献包括:形式化定义差分隐私数据存储问题;提出实用的LSH+噪声注入框架;实验证明隐私与效用的平衡。适合隐私保护、检索增强系统、设备端AI的研究者和工程师阅读。
💡 推荐理由: 该研究解决了检索增强推理中数据存储共享的隐私泄露风险,提出的DP数据存储生成方法可平衡隐私与实用性,为设备端AI系统的安全部署提供关键技术支持。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Thomas Humphries, Zinan Lin, Sergey Yekhanin
本研究针对欧氏空间中差分隐私(DP)k-均值聚类问题展开。现有解决方案直接对原始数据进行加和,导致敏感度与数据域的大小成正比。本文提出PE-means方法,将私有进化(Private Evolution, PE)算法(一种在合成数据生成中日益流行的方法)扩展到k-均值聚类任务。PE方法的核心优势在于,它仅需计算一个具有恒定敏感度的私有直方图来指导进化过程。PE-means在PE的基础上引入了专门用于聚类的新进化算子,以及其他具有独立意义的算法改进。实验结果表明,与现有最优基线相比,PE-means平均降低了20%的聚类损失。该工作为差分隐私聚类提供了新的思路,尤其适用于数据隐私要求高且需要准确聚类结果的场景。
💡 推荐理由: 差分隐私k-均值聚类是保护用户数据隐私的关键技术,现有方法敏感度高导致噪声过大。PE-means通过恒定敏感度的直方图计算显著降低噪声,提升聚类实用性,对隐私保护机器学习领域有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Fengyu Gao, Jing Yang
本文提出 DPPrefSyn,一种用于生成差分隐私(DP)合成偏好数据的新算法,旨在保护大语言模型(LLM)对齐过程中的隐私。在偏好对齐的后训练阶段,使用真实人类偏好数据可能泄露敏感的用户提示和判断。DPPrefSyn 基于 Bradley-Terry 偏好模型和成对偏好数据的内在几何结构,首先从私有数据中学习具有严格差分隐私保证的潜在偏好模型,然后利用该模型与公共提示生成高质量的合成偏好数据。该方法通过利用每簇奖励模型的共享线性结构来有效捕获私有数据中的异质人类偏好,并使用差分隐私主成分分析(DP-PCA)提高学习准确性。大量实验表明,DPPrefSyn 在强 DP 保证下实现了有竞争力的对齐性能。这是首个生成 DP 合成偏好数据用于 LLM 对齐的工作,代码已开源。
💡 推荐理由: LLM 对齐依赖人类偏好数据,但隐私问题日益突出。本文第一个提出差分隐私合成偏好数据方法,为隐私保护对齐提供了可行方案。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Madhura Pathegama, Srikanth Avasarala, Viveck R. Cadambe, Juba Ziani
本文研究在诚实但好奇的服务器场景下,通过本地差分隐私(LDP)对 n 个用户持有的数值进行私有求和估计。传统上,本地差分隐私要求每个用户独立添加噪声,导致估计精度远低于集中式差分隐私(CDP)——后者在汇总数据后统一添加噪声。本文证明这一精度差距并非本质性的:通过精心设计用户间本地噪声的相关性,可以构造满足 ε-差分隐私的机制,使得求和估计的均方误差(MSE)与集中式设置中可达到的最优值任意接近。具体地,作者提出一种基于相关噪声的 LDP 机制,其估计成本(MSE)与 CDP 最优成本仅相差任意小的常数倍,从而在理论上确立了 LDP 可以无损达到 CDP 的效用。该结果挑战了 LDP 必然导致高噪声损失的普遍认知,为设计高效本地隐私保护聚合协议提供了新的理论框架。论文属于理论性研究,适合对差分隐私、统计推断和隐私计算理论感兴趣的学者。
💡 推荐理由: 证明了本地差分隐私(LDP)可以通过相关噪声消除与集中式差分隐私(CDP)之间的效用差距,从根本上改变了业界对 LDP 精度上限的认知,对隐私保护聚合协议的设计具有重要理论指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chen Gong, Kecen Li, Zinan Lin, Tianhao Wang
该论文研究差分隐私(DP)图像合成问题,旨在从敏感数据集中生成保留统计特征的图像,同时提供严格的隐私泄漏保证。现有方法通常使用差分隐私随机梯度下降(DP-SGD)对公共模型进行全量微调,但公共模型参数数量庞大,导致计算成本高昂。近期工作启发式地采用低秩自适应(LoRA)对所有注意力层参数进行微调以减少可训练参数,然而在DP设置下,对所有注意力层参数进行LoRA覆盖是次优的,因为噪声会累积并导致训练崩溃。为解决此问题,论文提出DP-SAPF(Saliency-Aware Parameter Fine-tuning),一种显著性感知的参数微调方法。核心思路是:较大的梯度幅值表示较高的显著性,这些参数对DP学习最为关键。具体地,将敏感图像输入公共模型,计算梯度并添加噪声以满足DP要求,然后识别出在敏感图像上具有高梯度幅值的显著参数,仅对这些参数进行LoRA微调。在四个敏感图像数据集上的实验表明,DP-SAPF相比无参数选择的微调方法,在相同或更少计算资源下,提升了合成图像的效用和保真度。该方法适用于需要基于敏感数据(如医疗影像、人脸数据)生成合成图像以支持数据分析或模型训练的场景,同时满足差分隐私合规要求。
💡 推荐理由: 差分隐私图像合成能让蓝队/安全团队在共享敏感图像数据时,既保护隐私又保留数据可用性。DP-SAPF首次提出基于显著性选择LoRA参数,降低了训练噪声和计算开销,为实际部署差分隐私合成系统提供了更高效、更实用的方法。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Benjamin Bichsel, Samuel Steffen, Ilija Bogunovic, Martin T. Vechev
本文提出了DP-Sniper,一种实用的黑盒方法,能够自动发现差分隐私(Differential Privacy, DP)违反。该方法基于两个核心思想:(1)训练一个分类器来预测观察到的输出是否可能来自两个候选输入之一;(2)将该分类器转化为一个近似最优的差分隐私攻击。实验评估表明,DP-Sniper相比现有技术,在保证相同置信度的情况下,能够提供高达12.4倍更强的保证(即发现更微小的隐私泄露),同时运行速度快15.5倍。此外,DP-Sniper还能有效利用朴素实现算法中的浮点漏洞:它检测到一个声称满足0.1-差分隐私的拉普拉斯机制实现实际上连0.25-差分隐私都无法满足。该方法为差分隐私实现的正确性验证提供了高效、自动化的工具,适用于安全分析师评估差分隐私系统的真实隐私保障水平。
💡 推荐理由: 差分隐私是保护数据隐私的关键技术,但其实现可能存在漏洞或违背理论保证。DP-Sniper提供了一种自动化的黑盒测试方法,可高效发现隐私违规,帮助安全团队验证系统是否真正达到了声称的隐私预算。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ben Jacobsen, Tomas Gonzales, Gavin Brown, Kassem Fawaz, Aaditya Ramdas
该论文研究了在差分隐私约束下,使用e值进行假设检验时的最优速率问题。E值作为一种灵活的工具,近年来在允许任意有效和自适应数据分析中受到广泛关注,其应用常涉及隐私或敏感数据。作者提出了一个核心问题:给定两个分布P和Q,在满足ε-差分隐私的e值检验中,最大化e-power(即检验功效)的最优速率是多少?论文给出了该问题的特征描述,并提出了一个达到最优速率的算法。在序列设置中,当观测值逐个到达且分析师选择何时停止时,作者给出了任何私有e-process的停止时间的匹配上下界。数值实验证实了算法的实用性,在多种序列测试问题和隐私水平下,该算法所需的数据量少于近期提出的DP-SPRT方法。本研究为差分隐私假设检验提供了理论最优性和实用算法,适用于需要隐私保护的统计推断场景。
💡 推荐理由: 该研究为差分隐私下的假设检验提供了理论最优解和实用算法,有助于在保护数据隐私的同时进行高效可靠的统计推断,对联邦学习、机密数据分析等安全敏感场景有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Huikang Liu, Aras Selvi, Wolfram Wiesemann
本文针对满足 (ε, δ)-差分隐私的标量实值查询函数,设计了一类加性噪声机制,特别关注中低隐私保护水平(即ε较大或δ较宽松)的场景。作者提出的“混合机制”(mixture mechanisms)通过混合多个高斯分布来构造噪声分布,这些高斯分布具有相同的方差,但均值不同,并通过凸组合的方式调整混合权重。具体而言,该分布可以解释为零均值高斯(如分析高斯机制中使用的)与若干均值依赖于查询敏感度的高斯分布的凸组合。论文推导了实现 (ε, δ)-DP 所需方差的紧条件,并给出了高效算法计算这些方差。与广泛使用的分析高斯机制相比,混合机制在期望噪声幅值(ℓ1损失)和方差(零均值分布的ℓ2损失)上均有显著降低。在驱动本设计的低隐私保护水平下,该机制接近于最优,几乎消除了分析高斯机制的全部最优性缺口。该研究为差分隐私的噪声注入提供了一种新的理论框架,适合对差分隐私理论、隐私保护数据发布感兴趣的研究人员和工程师阅读。
💡 推荐理由: 差分隐私是保护数据隐私的核心技术,本文提出的混合高斯机制在低隐私预算下显著降低噪声,提升了数据效用,对实际部署差分隐私(如统计查询、联邦学习)有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Önder Askin, Holger Dette, Martin Dunsche, Tim Kutta, Yun Lu 0001, Yu Wei 0007, Vassilis Zikas
本文研究差分隐私(DP)的精细变体——f-差分隐私(f-DP)的统计评估与审计方法。f-DP通过一个函数f描述隐私损失,相较于标准ε-DP具有更紧的组合性质,但实际验证机制的隐私保证仍具挑战,尤其在黑盒场景下。现有f-DP审计方法通常需要预知算法内部结构,限制了实用性。本文提出全新的黑盒方法,无需任何先验知识即可估计f-DP的完整权衡曲线,并给出理论收敛保证。该方法融合非参数估计与最优分类理论,可统计确定性地检测f-DP违规。作者在多种DP机制(如拉普拉斯、高斯、指数机制等)上验证了估计与审计程序的有效性。主要贡献包括:1)首个通用的黑盒f-DP估计器,输出完整曲线;2)高效的审计方法,以统计置信度检测违规;3)理论收敛证明与实验验证。该工作适用于隐私保护机器学习、联邦学习、数据发布等场景,对隐私工程师、算法审计师及DP研究者具有参考价值。文中未提供具体攻击代码或绕过方法,仅专注于隐私评估技术。
💡 推荐理由: 差分隐私在现实部署中难以验证,尤其是黑盒场景。f-DP作为更精细的隐私模型,缺乏通用审计工具。该方法无需算法先验知识,可自动化评估隐私承诺,帮助安全团队检测隐私泄露或配置错误,提升合规审计能力。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gavin Brown, Ephraim Linder, Mahbod Majid, Vikrant Singhal
该论文研究差分隐私下单调统计量的高效估计算法。单调统计量指随着新观测数据增加而单调变化的统计量(如分位数、累积分布函数等)。传统方法采用子采样-聚合(subsample-and-aggregate)框架:将数据集分成多个子块,分别计算统计量,再用差分隐私机制聚合结果。该方法适用性广但样本效率低下。本文针对单调统计量提出改进算法,在样本复杂度上节省了因子t(t>0为可调参数),但运行时间增加了e^t倍。通过查询复杂度下界证明该算法本质最优。应用案例包括私有特征值估计、私有损失估计以及高维模型中单参数(如线性回归系数)的私有估计。实验表明新算法在保持同等隐私保障下需更少样本,适合数据稀缺场景。
💡 推荐理由: 差分隐私是保护个体数据的关键技术,但现有方法样本效率低。本文针对单调统计量提出样本效率更优的算法,直接降低隐私保护分析时的数据需求,对安全团队在有限数据下进行合规分析有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yvonne Zhou, Mingyu Liang, Ivan Brugere, Danial Dervovic, Yue Guo, Antigoni Polychroniadou, Min Wu, Dana Dachman-Soled
本文首次对全同态加密(FHE)下的机器学习训练进行了理论收敛性分析,并提出了一种结合差分隐私(DP)的训练算法,专为加密计算设计。该方法通过使用激活函数和损失函数的多项式近似(FHE兼容所必需)来证明近似梯度下降的收敛性,从而改进了标准差分隐私梯度下降(DP-GD)的计算效率,同时实现可比的效用。为了在下游任务中保护隐私,该算法在不依赖昂贵的每个样本梯度裁剪的情况下集成了差分隐私,实现了可扩展的加密学习。此外,本文还提供了数据无关的超参数选择和多项式近似的理论指导策略,这些成果可独立应用。总体而言,这些贡献推进了在敏感数据上实现高效、私有且安全的机器学习的可行性。
💡 推荐理由: 为FHE下ML训练提供首个收敛性保证,结合DP实现隐私保护,有望推动敏感场景下的安全机器学习应用。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ramon G. Gonze, Natasha Fernandes, Heber H. Arcolezi, Catuscia Palamidessi, Nataliia Bielova
本文针对本地差分隐私(LDP)协议缺乏系统化比较方法的问题,提出了基于定量信息流(QIF)的分析框架。当前LDP领域通常使用隐私预算ε作为隐私度量,但ε仅能约束最坏情况下的区分性;其他比较则依赖效用驱动分析,即针对给定隐私预算ε评估机制保留数据效用的能力。这两种方法都无法全面评估协议面对不同攻击者模型时的安全性。本文通过将LDP机制建模为概率信道,利用细化(Blackwell序)概念建立更原则化的分类,从而判断一个协议是否在所有可能的攻击者面前本质上优于另一个协议,并讨论其对效用分析的影响。具体地,作者对七种主流协议进行了形式化QIF分析,包括广义随机响应(GRR)、局部哈希变体(BLH、OLH)、一元编码方案(SUE、OUE)以及直方图编码阈值化(THE)。分析发现,一些先前被认为“最优”的协议实际上与其他协议不可比或被严格主导。该工作弥合了LDP与形式化方法社区之间的鸿沟,实现了对本地隐私系统的原则化、攻击者感知推理。
💡 推荐理由: 为LDP协议提供了一种基于信息流的严谨比较框架,帮助安全从业者量化和理解不同协议在面对各种攻击者时的实际隐私保障,避免仅依赖ε或效用指标带来的误导。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gaoyi Chen, Yan Huang, Chenxi Qiu
该论文针对车辆轨迹数据发布中的隐私保护问题,提出了一种上下文感知的度量差分隐私(Context-aware mDP, C-mDP)框架。现有度量差分隐私(mDP)机制通常独立地扰动每个位置记录,忽略了轨迹数据中时间上相邻位置之间的上下文依赖关系,导致发布数据的效用损失较大。C-mDP将保护秘密定义为上下文增强记录(当前位置结合历史上下文),并在该增强域上实施度量不可区分性,从而将上下文信息纳入隐私保护模型。为了实现最优机制,作者将C-mDP机制设计建模为一个线性规划(LP)问题,目标是最小化期望效用损失同时满足C-mDP约束。为解决LP规模过大的问题,利用当前位置与上下文变量之间的条件独立结构,推导出简化公式,大幅减少了决策变量和约束数量。使用真实车辆移动数据集进行实验,与标准mDP基线方法(如平面拉普拉斯机制)比较,结果表明在相同隐私预算下,C-mDP始终能获得更高的数据效用,同时满足所需的度量隐私保证。该工作适合隐私保护研究人员、移动服务开发者及智能交通系统设计者阅读。
💡 推荐理由: 该研究提升了轨迹数据发布中隐私与效用的平衡,为车联网、位置服务等场景提供了可落地的隐私保护方案。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Joonas Jälkö, Gauri Pradhan, Ossi Räisä, Antti Honkela
本文研究成员推理攻击(MIA)在评估模型训练数据泄露时的可靠性问题。MIA通过二分类器预测样本是否属于训练集,通常使用假阳性率(FPR)和真阳性率(TPR)衡量漏洞。然而,可靠估计低FPR下的TPR需要大量目标模型,计算成本高昂。为了降低开销,现有工作常将多个个体和多个模型的MIA分数拼接后平均,然后评估TPR。本文指出这种高效评估流程存在两个关键缺陷:第一,拼接后的分数用于低FPR区域时,不同样本的FPR未得到校准,导致差分隐私审计不可靠;第二,Carlini等人(2022)提出的高效似然比攻击(LiRA)实现中存在有限总体偏差,使得每个样本的漏洞评估存在正向偏差。针对第一个问题,作者提出一种后处理方法,通过校准不同样本的FPR来提升可靠性。实验表明,该方法能有效修正评估偏差,使MIA评价更适用于差分隐私审计。本文适合从事隐私保护、差分隐私审计以及成员推理攻击评估的研究人员阅读。
💡 推荐理由: 揭示了当前高效成员推理攻击评估方法的漏洞,影响差分隐私审计的可信度,为更可靠的隐私泄露评估提供了重要改进方向。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Aratrika Mustafi, Soumya Mukherjee
本文研究了球面 Hellinger-Kantorovich (SHK) 梯度流的稳定性及其在差分隐私 (DP) 中的应用。SHK 几何将运输和反应耦合,其梯度流与生灭 Langevin 动力学一致,可用于从 Gibbs 分布中采样。作者提出了一种扰动理论,针对两个不同势函数 V 和 V',从相同的初始分布出发,比较它们对应的 SHK 梯度流,并量化势函数差异随时间的传播效应。通过统一的扰动界,获得了对数似然比和 Rényi 散度的无维点态控制;在额外结构条件下,还导出了 KL 散度的界。这些结果被应用于差分隐私中指数机制的近似采样:对数似然比控制提供了基于 SHK 采样器的显式时间相关纯 DP 保证,而 KL 散度界则通过曲棍球棒散度给出近似 DP 证书。此外,本文还推导了一个效用界,将指数机制固有的次优性与有限时间采样误差分离开来。该工作为基于梯度流的隐私保护采样算法提供了理论支撑,揭示了势函数扰动对采样分布隐私保证的影响机制。
💡 推荐理由: 为差分隐私中的近似采样提供了新颖的理论分析工具,特别是基于 SHK 几何的梯度流方法,有助于设计更高效的隐私保护采样算法。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Borja Balle, James Bell 0001, Adrià Gascón
该论文受差分隐私洗牌模型(shuffle model)近期发展的启发,提出了一种新的近似洗牌功能——交替洗牌(Alternating Shuffle)。研究背景是:在洗牌模型中,一个可信的洗牌器随机排列用户的数据,从而放大本地差分隐私的隐私预算。然而,现有的单服务器威胁模型(其中敌手观察所有通信)中的洗牌协议,每个客户端的通信量与客户端总数呈线性关系,这限制了可扩展性。核心问题是如何设计一种通信效率更高的近似洗牌协议,同时保持差分隐私的放大效应。论文的主要贡献如下:1. 提出了交替洗牌功能,并给出了一个在单服务器威胁模型下实现该功能的协议。在该协议中,每个客户端的通信量仅随客户端数量亚线性增长(具体为对数次方),相比之前的协议提升了数个数量级。2. 证明了交替洗牌与均匀洗牌具有类似的差分隐私放大效应,即应用交替洗牌后,本地随机机制的隐私参数会得到放大,从而支持更高效的数据发布。3. 将交替洗牌应用于基于Ishai等人工作的安全求和协议,证明了替代后协议的安全性保持不变。4. 在实现过程中,还开发了一个单服务器威胁模型下的精确洗牌协议,每个客户端的分摊通信量为对数级别,该协议本身可能具有独立的研究价值。实验部分(若有)着重于具体协议的通信开销对比,展示了交替洗牌在降低通信带宽方面的显著优势。该研究工作主要面向差分隐私、密码学和安全多方计算领域的研究者与实践者。
💡 推荐理由: 该研究为差分隐私洗牌模型提供了更高效的实现方案,显著降低了客户端通信成本,有助于推动差分隐私在大规模联邦学习、统计查询等场景中的实际部署。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Aman Saxena, Jan Schuchardt, Yan Scholten, Stephan Günnemann
本文提出了一种基于差分隐私的原偶视角(primal-dual perspective)来证明机器学习模型对后门攻击的鲁棒性。后门攻击同时污染训练数据和测试数据,使得现有仅针对训练时或推理时单一阶段的随机平滑认证方法失效。作者将随机平滑与差分隐私中的隐私配置文件(privacy profiles)相结合,该配置文件提供了一种数值化方法来组合异构随机机制。由此得到的框架能够对复杂的组合机制进行紧致、模块化的端到端认证,同时可以利用现有差分隐私机制的分析结果。作者将该框架实例化到DP-SGD(差分隐私随机梯度下降)和深度分区聚合(Deep Partition Aggregation)并加入推理时平滑,推导出同时对抗训练时和后门注入、推理时触发器激活的联合鲁棒性保证。在MNIST和CIFAR-10上的实验表明,该方法能够有效认证模型在联合威胁模型下的鲁棒性。本文为使用组合机制认证复杂威胁模型下的鲁棒性提供了一个通用且原则性的框架。
💡 推荐理由: 后门攻击是AI安全的核心威胁,现有认证方法大多只针对单一阶段攻击。本文提出的联合认证框架填补了同时认证训练时和推理时攻击的空白,有助于构建更可信的AI系统。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Anamay Chaturvedi, Monika Henzinger, Jalaj Upadhyay
该论文研究了差分隐私(DP)中的广义私有测试问题,该问题由 Liu 和 Talwar 在 STOC 2019 中提出。给定一个数据集 X 和一个序列的黑盒 ε_t-DP 机制 M_t,分析者需要以 DP 方式接受第一个成功概率 p_t = Pr[M_t(X)=+1] 超过给定阈值 p^* 的机制。准确度由 p^* 和拒绝阈值 bar{p} 之间的间隙衡量,要求高概率下判断正确。为了提升此项任务的样本复杂度和精度,论文引入了广义阈值机制(GTM)。GTM 是纯 ε-DP 机制,可以处理任意 (ε_t, δ_t)-DP 机制序列,并实现了近最优的精度和样本复杂度下界。通过 GTM,作者给出了从持续观察(CO)设置到批处理设置的 DP 优化黑盒归约,首次为多种最大化问题(如子模最大化)提供了 DP-CO 算法。此外,GTM 允许自适应选择接受阈值 p_t^*,解决了先前工作中(如 Papernot 和 Steinke, ICLR 2022)用于超参数优化的挑战。论文主要贡献包括:提出了 GTM 算法,证明了其近最优性,建立了 CO 到批处理的归约,并展示了广义私有测试在自适应阈值选择方面的灵活性。适合对差分隐私理论、算法设计以及私有优化感兴趣的研究人员阅读。
💡 推荐理由: 该工作为差分隐私中的关键问题(私有测试)提供了近最优算法,并首次将连续观测场景的DP优化问题系统性转化为批处理场景,推动了DP在优化领域的实际应用。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Rishav Chourasia, Ergute Bao, Uzair Javaid, Xiaokui Xiao
本文对苹果公司差分隐私框架(DifferentialPrivacy.framework)进行了首次客户端审计,覆盖 macOS Sonoma 14.2 和 Sequoia 15.6 系统。苹果自 2016 年起声称其设备分析数据受差分隐私保护,但并未开源私有化算法,导致独立验证困难。研究团队通过逆向工程、恢复 Objective-C 接口、构建运行时测试工具,对苹果实际部署的 Count Median Sketch、Hadamard-CMS、随机响应机制和 Prio 类安全聚合等机制进行了全面测试。结果发现多个编程错误和配置缺陷:所有依赖浮点噪声的机制均因使用不安全的采样器而未能达到宣称的差分隐私或零知识证明保证;部分安全聚合配置禁用了本地差分隐私,使得拥有日志访问权限的方可获取聚合前的原始记录。在审计的 9 个机制中,5 个存在差分隐私违规问题,影响 macOS Sonoma 87% 和 Sequoia 68% 的数据收集。此外,他们还发现了公开泄露的 iPhone 日志,可被解码恢复 Safari 域名和键盘表情符号等私密信息。该研究揭示了苹果差分隐私实现中的系统性风险,对用户隐私保护构成实际威胁。
💡 推荐理由: 苹果的差分隐私框架广泛用于用户数据分析,但实际实现存在严重漏洞,导致隐私保证失效。安全从业者需了解这些风险,以评估苹果设备的隐私保护可信度。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Adda Akram Bendoukha, Heber Hwang Arcolezi, Nesrine Kaaniche, Aymen Boudguiga
联邦学习通过不传输原始数据的方式实现分布式模型训练,但平均聚合方法受非独立同分布(non-IID)数据的严重影响,导致收敛速度慢和模型精度下降。现有替代方案具有显著的低效性:带有噪声或高度异构数据的客户端贡献了昂贵的梯度计算,这些计算在聚合前往往被丢弃或大幅降权。这种被动方法浪费计算资源、需要更多通信轮次,并导致不必要的隐私暴露。本文提出一种主动客户端选择框架,旨在训练开始前找到一组最优客户端联邦,其组合数据满足效用和公平性要求。该方法利用从差分隐私列联表计算出的互信息,来量化联合数据集中跨特征相关性的相关性。引入潜在联邦损失(PFL)函数,该函数平衡两个目标:最大化集体数据效用,同时确保公平的跨特征相关性以防止群体不公。将客户端选择表述为在PFL目标上的最优子集搜索问题,使用模拟退火算法求解,并为客户端本地统计提供强差分隐私保证。在四个基准上的实验表明,与均匀采样甚至使用最先进的自适应聚合或采样策略相比,在最优联邦上训练的模型更快、更公平、更准确。
💡 推荐理由: 该工作提出了一种新颖的主动客户端选择方法,兼顾效用、公平性和隐私保护,可显著提升联邦学习在非IID场景下的效率与公平性,对隐私敏感型联邦学习应用具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hoang Tran, Jorge Ramirez, Jiayi Wang, Alberto Bocchinfuso, Christopher Stanley, M. Paul Laiu
本文针对预训练机器学习模型在微调过程中可能记忆敏感数据的问题,提出了一种基于指数机制的随机算法,以实现差分隐私保护。核心思路是构造一个简单的效用函数,该函数结合了预训练模型的局部二次近似与新数据集的信息,使得指数机制能够从多元正态分布中闭式精确采样。作者建立了理论上的隐私保证、灵敏度界和准确性估计,并通过引入随机投影策略使方法可扩展至高维模型。在MNIST基准和MIMIC临床数据集上的数值实验表明,该方法与现有差分隐私微调技术相比具有竞争性能。该研究主要贡献在于提出了一个兼具理论严谨性和实用性的隐私保护微调框架,适合关注机器学习隐私保护的研究者和工程师阅读。
💡 推荐理由: 微调是机器学习落地的关键步骤,但易泄露隐私。本文提出的差分隐私微调方法在理论上优雅且可精确采样,为隐私保护机器学习提供了新思路。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Mohammad Partohaghighi, Roummel Marcia
本文提出了一种名为 SMA-DP-SGD(Spectral Memory-Aware Differentially Private Stochastic Gradient Descent)的新方法,旨在改进差分隐私深度学习中的效用问题。标准的差分隐私随机梯度下降(DP-SGD)通过对每个样本梯度进行裁剪并添加高斯噪声来保证隐私,但其高方差的更新会导致在困难数据集上的模型效用下降。SMA-DP-SGD 引入了一个基于历史私有化噪声释放的分数记忆分支,利用受 WeightWatcher 启发的谱幂律指数来提供分组层面的可靠性信号,并逐层实例化以调整衰减率和有效记忆深度。该方法通过私有历史对齐、范数匹配和预热激活来稳定记忆贡献。隐私保证是透明的:在给定私有释放历史条件下,记忆分支是固定的,唯一依赖于新数据的项是当前裁剪后的梯度之和乘以固定系数 β。因此,SMA-DP-SGD 保持了清晰的条件敏感度结构,并在 β=1 时精确恢复分组 DP-SGD。实验在 CIFAR-100、CIFAR-10 和 MNIST 上进行,结果表明该方法在多个差分隐私优化基准上取得了具有竞争力或更优的准确率,尤其在 CIFAR-100 和 CIFAR-10 上提升最大。CIFAR-10 的消融实验显示 β 控制着隐私-效用的权衡轨迹,谱和记忆诊断证实了可控的短至中等有效记忆深度以及较小的记忆分支占比。运行时分析表明,该方法在 CIFAR-10 实现中比 DP-SGD 增加了约 2.94 倍的开销,揭示了自适应私有记忆与计算成本之间的实际权衡。
💡 推荐理由: 差分隐私深度学习在实用化中面临效用损失挑战,本文通过引入谱感知记忆机制,在不牺牲隐私保证的前提下显著提升了模型精度,为隐私保护机器学习提供了新的优化思路。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Florian A. D. Burnat, Brittany I. Davidson
本文聚焦于多租户检索增强生成(RAG)服务中的隐私审计问题。现有RAG系统通常声称每个账户满足差分隐私(DP),即每个账户的查询对索引满足(ε_acc, δ_acc)-DP。然而,作者发现同租户下多个账户合谋(即同一租户的多个账户协调攻击其租户的索引)会导致隐私边界失效:对于高斯噪声检索,已知DP组合理论表明,合谋者的联合泄漏以Θ(√k·ε_acc)的速率无条件恶化。跨租户和外部合谋只有在显式访问控制失败(M4)时才会达到相同速率,否则这些场景的设计泄漏为零,属于架构审计而非DP审计。作者展示了一种实现该速率的攻击,并推导出针对RAG的成员推理攻击(MIA)预测,并通过实验验证。为了能够审计这种每个账户与联合隐私之间的差距,作者设计了第一个审计协议,该协议运行在未修改的RAG部署上,针对检索-分数通道(即每个账户DP保证实际覆盖的噪声-选择步骤)输出定量的(PASS, ε_audit)判定,而无需索引披露、流水线重新设计或模型权重暴露。生成通道隐私(即基于所选文档的LLM输出)被视为独立的审计谓词,应与此协议组合,但本文明确将其排除在外。该协议组合了通用密码学原语(Merkle账本、ZK函数应用证明、高斯噪声证明)与六个RAG特定原语(嵌入承诺、索引内容向量承诺、每个账户查询账本、噪声-选择证明、跨租户包含证明、合谋规模估计器),并支持封闭形式的审计边界和Rényi-DP矩会计追踪。
💡 推荐理由: 该研究揭示了多租户RAG系统中每个账户差分隐私声明的漏洞,即同租户多账户合谋可显著放大隐私泄漏,并提供了首个可部署的审计协议,有助于验证实际RAG服务的隐私承诺,对依赖RAG的云服务提供商和审计人员具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Benjamin Coleman, Anshumali Shrivastava
本文针对大规模机器学习场景下的差分隐私问题提出了一种通用、高效的私有草图(private sketch)方法。差分隐私通过严格的数学定义量化隐私与效用的权衡,但在实际应用中,通用算法运行缓慢(中等规模数据集可能需要数小时至数天),因此现有方法多为特定任务设计。本文提出的草图是一种紧凑的数据集摘要,支持回归、分类、密度估计等多种机器学习任务,其核心思想是将众多机器学习目标函数规约为核和(kernel sums)计算。草图利用局部敏感哈希(LSH)索引的随机列联表来估计核和,具有简单、可合并(mergeable)、单遍流式处理等特性,非常适合大规模分布式环境。实验表明,在包含6500万节点的Friendster图数据集上,该方法可在20分钟内完成单遍处理,而现有替代方案由于维度增长呈指数级缓慢,完全不可行。全面的实验评估显示,该方法的隐私-效用权衡与现有算法相当,但计算成本降低了一个数量级。预计该草图将在分布式、大规模机器学习设置中具有实用价值。
💡 推荐理由: 该研究为大规模分布式机器学习系统提供了首个通用的、可合并的差分隐私草图方法,大幅降低了隐私保护计算的开销,有望推动差分隐私在高维、大规模场景下的实际部署。
🎯 建议动作: 研究跟进,评估其在实际分布式系统中的适用性
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Haichao Sha, Zihao Wang, Yuncheng Wu, Hong Chen, Wei Dong
该论文提出了一种名为 DP-SelFT 的差分隐私选择性微调框架,旨在解决大型语言模型(LLM)在微调过程中因使用敏感数据而导致的隐私泄露问题。差分隐私(DP)通过梯度裁剪和噪声注入提供形式化的隐私保护,但常导致模型效用显著下降。现有工作通过结合参数高效微调方法(如 LoRA)来改善隐私-效用权衡,但这些方法主要约束更新的形式。本文探索了互补的方向:选择性微调,即约束更新的位置。DP-SelFT 针对参数选择过程中的三个 DP 特有挑战:避免重复的隐私成本、提高噪声估计下的稳定性、以及选择在裁剪和噪声更新下仍然有用的参数。其核心思想是:首先构建一个轻量级的 DP 合成数据集,并仅在此合成数据上执行参数选择,从而选择阶段不产生额外隐私成本;然后通过临时训练候选层子集(在合成训练集上)并在合成验证集上评估来进行层级别选择。关键在于,这个临时训练是在与下游 DP 微调匹配的扰动机制下进行的,扰动规模与 DP 噪声相同,从而偏向于选择那些不仅可学习而且对噪声私有更新具有鲁棒性的层子集。实验在基准任务上表明,在相同的隐私保证下,DP-SelFT 持续优于现有的 DP 微调基线,改善了隐私-效用权衡。该研究为 LLM 的隐私保护微调提供了新思路,适合对差分隐私、模型微调隐私保护感兴趣的研究者阅读。
💡 推荐理由: 该方法在差分隐私微调中引入选择性更新策略,显著提升了模型效用与隐私保护的平衡,对于处理敏感数据的 LLM 应用具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Wenhao Wang, Shujie Cui, Hui Cui, Xingliang Yuan
这篇论文重新审视了差分隐私随机梯度下降(DP-SGD)的安全分析。DP-SGD广泛应用于机器学习中保护训练数据,其隐私保证通常通过一个安全游戏来分析,攻击者试图从机制输出中推断目标记录是否在训练集中,隐私泄露由隐私曲线(假阳性率作为假阴性率的函数)表征。论文发现现有形式化分析与常见DP-SGD实现之间存在不匹配:现有分析通常将DP-SGD及其变体建模为子采样高斯机制(SGM),即对泊松采样的批次计算裁剪梯度和并添加高斯噪声。然而,许多实际实现中额外进行了归一化步骤:将含噪梯度之和除以预期批次大小或实际采样批次大小。这些机制应分别形式化为期望平均SGM(EASGM)和批次平均SGM(ASGM)。论文重新分析了EASGM和ASGM下的隐私保证,理论结果表明这些保证可能弱于标准SGM保证,意味着在某些情况下真实隐私泄露可能超过报告的保证。此外,论文审计了四个最先进的DP-SGD实现,包括Meta的Opacus库,并观察到超出SGM保证的经验泄露。最后,对Opacus v0.9.0至v1.5.4版本进行审计,并为最新实现推导了修正后的隐私保证。
💡 推荐理由: 该研究揭示了广泛使用的DP-SGD实现可能高估隐私保护水平,导致实际隐私泄露风险。安全从业者需重新评估其系统中DP-SGD的隐私保证,特别是使用Opacus等库的应用。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Naoise Holohan, Stefano Braghin, Mohamed Suliman 0002
浮点算术在计算领域无处不在,因其能够表示极大和极小的数值范围,成为存储、分析和操作数值数据的首选方法。然而,这种灵活性在安全/隐私敏感的场景中带来了额外风险。本文探讨了当向敏感值添加噪声时,浮点算术导致的信息泄露威胁——这种泄露可能使敏感信息被恢复(例如在差分隐私中)。作者提出了一种名为尾数位操作(Mantissa Bit Manipulation, MBM)的解决方案,该方案比当前最先进的方法快数个数量级,适用于大多数连续概率分布以及所有浮点数格式。MBM通过直接操作浮点数的尾数位来高效地生成符合要求的噪声,避免了传统方法中复杂的计算和舍入误差,从而在保证安全性的同时大幅提升性能。实验表明,MBM在多种分布(如拉普拉斯、高斯)和浮点格式(32位、64位等)下均能有效工作,显著降低了噪声添加的计算开销。该研究为差分隐私等需要加噪的场景提供了更实用的基础工具,有助于推动隐私保护技术的实际部署。
💡 推荐理由: 本文揭示了浮点算术在加噪声场景下被忽视的信息泄露风险,并提出了一个高效、通用的解决方案。对于从事差分隐私、安全多方计算等方向的研究者和工程师,该工作有助于提升隐私保护机制的安全性和效率。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Edwige Cyffers, Juba Ziani
本文研究了差分隐私中个性化隐私预算的局限性。在差分隐私中,隐私预算ε的选择至关重要,它需要在满足隐私要求的同时最大化数据效用。一种常见的思路是为不同用户(或数据点)分配不同的隐私预算,即个性化隐私预算。然而,本文通过理论分析证明,个性化隐私预算的收益在均值估计任务中是有限的。具体而言,影响效用的主导因素并非完全个性化,而是选择合适的有效隐私预算。作者提出了一种简单的阈值化操作:将所有隐私预算低于某个阈值的用户视为非隐私数据,或统一分配一个公共预算。与这种阈值化基线相比,完全个性化机制带来的改进最多只能达到常数因子级别。论文精确量化了在混合公共和私有数据集、以及具有两层隐私要求的私有数据集场景中,个性化机制相对于阈值化基线的常数因子改进。此外,对于任意的隐私要求分布,作者建立了个性化机制可能达到的最大收益的上界,并识别了收益最大的参数区间。该研究否定了“个性化预算能大幅提升效用”的普遍直觉,为差分隐私系统的设计者提供了重要的理论指导,即通过简单的阈值化即可接近最优效用,无需复杂的个性化机制。
💡 推荐理由: 挑战了差分隐私中个性化预算能显著提升效用的常见假设,为隐私保护系统设计提供了更简洁、实用的指导,有助于降低工程复杂性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Haaris Mehmood, Jie Xu, Karthikeyan Saravanan, Rogier Van Dalen, Mete Ozay
本文提出一种名为 DP-LAC 的轻量级自适应裁剪方法,用于解决联邦学习(FL)中差分隐私(DP)随机梯度下降(DP-SGD)的裁剪阈值自调整问题。在联邦微调大规模语言模型(LLM)时,DP-SGD 通过裁剪每个客户端贡献的梯度范数至阈值 C 并添加与 C 成比例的高斯噪声来保护隐私。现有的自适应裁剪方法虽然能动态调整 C,但需要繁琐的超参数调优,且可能消耗额外的隐私预算。DP-LAC 首先通过私有直方图估计在最优阈值的一个数量级内估算初始裁剪阈值,随后在训练过程中在不消耗额外隐私预算且不引入新超参数的情况下自适应调整该阈值。实验结果表明,DP-LAC 在多个任务上平均准确率比当前最优自适应裁剪方法和原始 DP-SGD 提高 6.6%,显著提升了模型效用与隐私保护之间的权衡。该方法特别适用于资源受限的边缘设备场景,为联邦学习中差分隐私的实用化提供了轻量级解决方案。
💡 推荐理由: 联邦学习中的差分隐私保护是安全与隐私领域的关键挑战。DP-LAC 提供了一种无需额外超参数调优的自适应裁剪方法,能够在减少隐私预算消耗的同时提升模型精度,对于实际部署差分隐私联邦学习系统具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shokichi Takakura, Seng Pei Liew, Satoshi Hasegawa
该论文研究差分隐私(DP)约束下的分布采样问题。传统方法使用KL散度等密度比度量评估DP采样效用,但存在两个关键局限:1)无法捕捉支撑集的几何结构;2)当分布支撑集不同时不适用。为克服这些局限,作者提出以Wasserstein距离作为效用度量的新框架,并设计了基于Wasserstein投影的Wasserstein投影机制(WPM),该机制在极小化极大意义下最优。此外,还开发了近似计算该机制的高效算法并提供了收敛性保证。该工作为差分隐私采样提供了几何感知的实用工具,适用于需要生成隐私保护且保持数据几何结构样本的场景。
💡 推荐理由: 差分隐私采样是隐私保护机器学习的基础工具,传统度量忽略几何结构限制了其实用性。WPM机制首次将Wasserstein距离引入DP采样,可更好保留数据形状,对生成对抗网络、联邦学习等应用有潜在价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Mohammad Partohaghighi, Roummel Marcia
本文提出了一种新的差分隐私随机梯度下降(DP-SGD)变体,称为分数阶差分隐私随机梯度下降(FO-DP-SGD)。传统的DP-SGD通过逐样本裁剪、子采样、高斯扰动和隐私会计来保护隐私,每步只释放当前裁剪并加噪的梯度求和。FO-DP-SGD在加噪之前将当前裁剪的梯度求和与过去若干步已释放的私有求和输出进行加权聚合,其中权重遵循幂律分布(分数阶记忆),从而在释放机制中引入分数阶记忆。该方法保持了标准的“求和-加噪-除以批量大小”结构。在Poisson子采样下的增/删邻接关系中,敏感性分析表明只有当前步的裁剪求和是新的数据依赖项,因此有效ℓ2敏感性至多为βC(C为裁剪阈值,β∈(0,1]控制当前步贡献)。因此,FO-DP-SGD可借助Poisson子采样高斯机制的标准每步Rényi差分隐私会计来获得全局(ε,δ)-差分隐私保证。FO-DP-SGD提供了一个研究私有优化中长期记忆效应的框架,分数阶、记忆窗口和混合系数共同调节当前步敏感性、信号保留和私有历史影响之间的权衡。在SVHN、CIFAR-10和CIFAR-100数据集上的实验表明,与DP-SGD、DP-Adam、DP-IS、SA-DP-SGD、ADP-AdamW、DP-SAT和DP-Adam-AC等基线相比,FO-DP-SGD在测试准确率和隐私-效用权衡方面均有提升。
💡 推荐理由: 该研究提出了一种新颖的差分隐私机制扩展,通过分数阶记忆改善隐私-效用权衡,可能为实际部署隐私保护深度学习提供更优方案,值得关注差分隐私优化的从业者深入研究。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Murat Bilgehan Ertan, Xiaochen Zhu, Phuong Ha Nguyen, Marten van Dijk, Srinivas Devadas
本文提出 PACZero,一种基于 PAC(Probably Approximately Correct)隐私的零阶(Zeroth-Order)微调框架,旨在解决大语言模型(LLM)在强隐私保护下的可用性问题。核心思想是利用符号量化(Sign Quantization)技术对聚合后的零阶梯度进行离散化,使得在模型更新时,如果所有候选子集对更新方向一致(即 unanimity),则该步骤释放的梯度符号条件互信息为零,从而实现严格的隐私保障。PACZero 包含两个变体:PACZero-MI 通过精确校准二值释放的互信息来预算隐私;PACZero-ZPL 则在分歧步骤使用均匀随机掷硬币强制实现零互信息。实验在 SST-2(情感分类)和 SQuAD(问答)上使用 OPT-1.3B 和 OPT-6.7B 模型进行 LoRA 和全参数微调。结果显示,在零互信息(I=0)下,PACZero-ZPL 在 SST-2 上达到 88.99% 准确率,仅比非私有的 MeZO 基线(91.1%)低 2.1 个百分点;在 SQuAD F1 分数上也取得有意义的结果。此前没有任何方法能在高隐私保护(ε<1 的 DP 等价水平)下获得可用效用。该工作为隐私敏感的 LLM 微调提供了新的理论框架和实践方案,特别适合需要抵御成员推断攻击(MIA)的场景。
💡 推荐理由: 该研究首次在零互信息(即最高隐私保护级别)下实现了可用的 LLM 微调性能,为隐私合规的模型部署提供了可行方案,尤其适用于医疗、金融等数据敏感领域。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Marten van Dijk, Murat Bilgehan Ertan
本文研究了基于随机洗牌子采样(random shuffling)的差分隐私随机梯度下降(DP-SGD)在f-DP框架下的权衡函数(trade-off function)。与传统的泊松子采样(Poisson subsampling)不同,后者只能通过机器计算得到非封闭的隐式公式,随机洗牌子采样允许进行紧致分析,从而推导出透明且可解释的封闭形式界限。作者利用Berry-Esseen定理,得出了在单轮次(E=1)场景下紧至常数因子的上下界。具体而言,当噪声乘数σ≥√(3/ln M)时(M为单轮次内的轮数),所导出的权衡函数可表达为1-a-δ,即仅比理想随机猜测对角线(1-a)差δ。例如,取δ=1/100、σ=1时,约需M≈1.14×10^6轮和N≈1.14×10^7个训练样本即可实现有意义的差分隐私。这与最近关于σ≤1/√(2 ln M)区域的负面结果形成对比。对于多个轮次(epoch)的组合,δ呈线性增长(δ∝E),这限制了E=O(√M)。为了超越Berry-Esseen近似,作者引入了一种基于大数定律推广的新证明技术,得到了渐近随机猜测对角线极限结果:若E=c_M^2 M且c_M→0,则E重组合后的权衡函数f^⊗E(a)在a∈[0,1]上一致趋于1-a,此时δ仅具有O(√E)依赖性。文章还将此渐近区域与相应的泊松子采样渐近进行了对比,并指出明确收敛速率的刻画仍是开放问题。本工作为DP-SGD的隐私分析提供了更紧致、更透明的理论工具,有助于设计人员精确选择参数以实现隐私与效用的平衡。适合对差分隐私理论、特别是DP-SGD隐私核算感兴趣的研究人员阅读。
💡 推荐理由: 该研究为DP-SGD的隐私分析提供了更紧致且可解释的封闭形式界限,有助于安全从业者精确评估模型训练中的隐私损失,尤其适用于需要严格隐私保证的场景。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ni Ding, Wenjin Yang, Zijian Zhang
该论文提出了一种基于α-Wasserstein距离的机制来实现Rényi Pufferfish隐私保护,使用了拉普拉斯噪声和高斯噪声。通过应用Hölder不等式,作者证明了拉普拉斯机制的尺度参数可以通过W_α度量的上界进行校准,从而对于α∈(1, ∞]满足(α, ε)-Rényi Pufferfish隐私。在α=∞的极限情况下,该框架恢复了已有的用于ε-Pufferfish隐私的W_∞机制。该结果随后被扩展到指数机制。此外,作者提出了一种用于α∈(1, ∞)的高斯噪声的W_α机制,证明了它推广了Rényi差分隐私框架下的现有结果。实验评估表明,与传统的基于W_∞的方法相比,α-Wasserstein机制显著降低了噪声功率,其中高斯机制比拉普拉斯机制提供了更好的效用。值得注意的是,本文推导的机制实现了精确的(α, ε)-Rényi Pufferfish隐私,无需像δ近似这样的额外松弛。该工作为隐私保护领域提供了新的理论工具,有助于在数据发布和分析中实现更强的隐私保证。
💡 推荐理由: 该研究为Pufferfish隐私(一种比差分隐私更通用的隐私模型)提供了新的实现机制,通过α-Wasserstein距离优化了噪声添加,实现了更低的噪声功率,有利于在保护隐私的同时保持数据效用,对数据发布和机器学习中的隐私保护有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Zheng, Chenang Li, Zhou Li 0001, Qingsong Wang
本文提出CARIBOU框架,一种面向多层图神经网络的隐私保护方案。核心创新在于将收缩图层(Contractive Graph Layer, CGL)与收敛隐私会计相结合,实现边缘级差分隐私(EDP)和节点级差分隐私(NDP)下的深度聚合,同时保持较高的模型效用。传统GNN隐私保护方法往往在深层网络中面临隐私预算快速耗尽或效用严重下降的困境。CARIBOU通过设计收缩消息传递机制,限制每一层信息的扩散幅度,从而在不显著增加敏感度的情况下支持更多层的聚合。结合收敛隐私会计,能够更精确地追踪总体隐私损失,避免过估计。实验表明,在多个图基准数据集上,CARIBOU在相同隐私预算下比现有方法显著提升分类准确率,尤其在深度GNN中优势更为明显。该工作为隐私敏感场景下的图数据分析提供了可行方案。
💡 推荐理由: 该研究解决了深层GNN隐私保护的难题,提出的收缩消息传递与收敛隐私会计方法具有通用性,可应用于社交网络分析、医疗图数据等需要严格隐私保护的场景。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zheng Liu, Chen Gong 0005, Terry Yue Zhuo, Kecen Li, Weichen Yu, Matt Fredrikson, Tianhao Wang
该论文提出了PrivCode,这是首个专门为代码数据集设计的差分隐私(DP)合成器,旨在解决大型语言模型(LLM)在代码生成时微调私有数据集可能引发的隐私泄露问题。传统的DP方法在代码数据上面临语法依赖强和隐私-效用权衡的挑战。PrivCode采用两阶段框架:第一阶段“隐私净化”,利用DP-SGD训练模型生成符合差分隐私的合成代码,并通过引入语法信息保留代码结构;第二阶段“效用提升”,在合成的无隐私代码上微调更大的预训练LLM,以缓解DP带来的效用损失。在四个LLM和四个基准测试上的实验表明,PrivCode在各种任务下生成的代码具有更高的效用,同时在不同隐私预算下能保护敏感数据。该研究为代码领域的隐私保护生成提供了新的方法论,适合对差分隐私、代码生成和LLM隐私保护感兴趣的研究者阅读。
💡 推荐理由: 首次将差分隐私合成技术应用于代码数据集,提出两阶段框架平衡隐私与效用,对保护企业专有代码和用户隐私有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhifan Luo, Shuo Shao 0002, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin
本文研究了大型语言模型(LLM)推理过程中键值缓存(KV-cache)带来的隐私风险。KV-cache是LLM中用于加速自回归解码的关键组件,它会存储中间注意力层的键和值张量。作者发现,KV-cache中可能残留用户输入的敏感信息,例如个人身份、医疗记录或金融数据。通过分析KV-cache的数据生命周期,攻击者若获得缓存访问权限(如通过共享内存、侧信道攻击或模型托管环境中的越权访问),可重建部分用户输入,导致隐私泄露。论文提出了一种基于差分隐私的缓存扰动机制,在KV-cache写入内存前添加精心设计的噪声,使得攻击者无法准确恢复原始数据,同时最小化对推理质量和性能的影响。实验在多个主流LLM(如LLaMA、GPT类模型)上验证了方法的有效性:隐私保护强度可调节,且模型困惑度下降不超过2%,推理延迟增加小于5%。此外,论文还讨论了与现有内存加密和访问控制技术的互补性。该研究首次系统性地披露了KV-cache作为LLM隐私攻击面的可能性,并提供了实用的防御思路。
💡 推荐理由: KV-cache是LLM推理的标配优化技术,但其隐私风险此前未被重视。该研究揭示了新的攻击面,对使用共享推理基础设施(如云端API、边缘设备)的场景有直接威胁。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Quan Yuan, Xiaochen Li, Linkang Du, Min Chen 0032, Mingyang Sun, Yunjun Gao, Shibo He, Jiming Chen 0001, Zhikun Zhang 0001
因果推断在多个科学研究领域扮演关键角色,其中平均处理效应(ATE)的估计是核心问题之一。然而,使用真实世界观测数据计算ATE会带来显著的隐私风险。差分隐私作为一种严格理论保证的隐私保护技术,已成为隐私保护数据分析的标准方法。但现有的差分隐私ATE估计工作通常依赖于特定假设、提供有限的隐私保护或无法实现全面的信息保护。为此,本文提出了PrivATE——一个实用的、确保差分隐私的ATE估计框架。考虑到不同场景对隐私保护级别的需求各异(例如,教育评估中仅考试成绩为敏感信息,而医疗记录的所有数据通常都需要保护),PrivATE设计了两种级别的隐私保护:标签级(仅保护结果变量)和样本级(保护所有变量)。通过推导自适应匹配界限(adaptive matching limit),PrivATE有效平衡了噪声引入的误差和匹配误差,从而获得更准确的ATE估计。实验评估在多个数据集和不同隐私预算下验证了PrivATE的有效性,其性能优于现有基线方法。该方法适用于需要因果推断又必须保护用户隐私的广泛应用场景,如医疗、教育和经济学分析。
💡 推荐理由: PrivATE首次在差分隐私框架下同时支持标签级和样本级隐私保护,有效平衡了噪声误差与匹配误差,为处理敏感观测数据的因果推断提供了实用且可扩展的解决方案。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Takao Murakami, Yuichi Sei, Reo Eriguchi
该论文提出了一种名为FME(Filtering-with-Multiple-Encryption)的增强型洗牌差分隐私协议,用于解决大规模分类数据和键值数据统计估计中的隐私保护问题。传统的洗牌差分隐私协议虽然能提供高精度和隐私保护,但容易受到数据收集者与用户合谋攻击以及数据投毒攻击。近期研究通过引入用户不添加噪声、由洗牌器执行随机采样和虚拟数据添加的增强协议来抵御这些攻击,但该方法仅适用于小域分类数据,在大域场景下通信和计算成本过高。本文提出的FME协议通过哈希函数过滤掉非流行项,然后对流行项进行精确频率估计。为了实现用户与洗牌器单轮交互,协议采用多重加密方法进行系统内通信。此外,论文将FME协议扩展到更高级的键值统计估计,并引入偏差减少技术。对于分类数据和键值数据,论文证明该协议能提供计算差分隐私、对上述两种攻击具有高鲁棒性、准确性和效率。通过与十二种现有协议的比较,实验验证了所提方法的有效性。该研究适合对差分隐私、统计估计、安全多方计算等方向感兴趣的安全研究人员和隐私保护从业者。
💡 推荐理由: 该协议解决了现有增强洗牌差分隐私方案无法应用于大域数据的关键瓶颈,同时保持对合谋攻击和数据投毒攻击的鲁棒性,对实际部署差分隐私系统具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chen Gong 0005, Zheng Liu, Kecen Li, Tianhao Wang 0001
该论文提出了PrivORL,这是首个将差分隐私(DP)应用于离线强化学习(RL)数据集合成的方法。离线RL通过共享预收集的轨迹或过渡数据来训练智能体,避免与环境的直接交互,在导航等关键任务中有效。然而,数据集可能包含敏感信息,存在隐私泄露风险。PrivORL利用扩散模型(用于过渡合成)和扩散Transformer(用于轨迹合成)在差分隐私保护下生成合成数据集。该方法采用先在公开数据集上预训练生成器,再在敏感数据集上使用DP-SGD微调的策略。此外,PrivORL引入好奇心驱动的预训练,通过好奇心模块的反馈增加合成数据的多样性,从而生成与敏感数据集高度相似且多样化的合成过渡和轨迹。在五个敏感离线RL数据集上的大量实验表明,与基线方法相比,PrivORL在DP过渡和轨迹合成中均实现了更优异的效用和保真度。论文提供了GitHub仓库的复现包。
💡 推荐理由: 离线强化学习在医疗、金融等敏感场景中的应用日益广泛,数据集隐私泄露可能造成严重后果。PrivORL提供了首个实用的差分隐私数据合成方案,有助于在保护隐私的同时推动离线RL研究的发展。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Meenatchi Sundaram Muthu Selva Annamalai, Borja Balle, Jamie Hayes, Emiliano De Cristofaro
本文研究了使用洗牌(shuffling)机制替代传统泊松子采样的差分隐私随机梯度下降(DP-SGD)算法在隐私保证上的实际效果。泊松子采样是DP-SGD的标准做法,但洗牌因其更好的兼容性和较低的计算开销而被广泛采用。然而,洗牌下的严格理论差分隐私(DP)保证计算仍是一个开放问题,导致实际训练中常以泊松子采样的标准来评估,可能产生不准确的隐私保障。作者提出了新颖的DP审计程序,专门用于分析洗牌机制下的DP-SGD,并能紧密估计隐私泄露程度与批次大小、隐私预算及威胁模型的关系。实验表明,使用洗牌训练的模型其隐私保证被严重高估(最多达4倍),且该差距在不同参数设置和威胁模型下并非均匀。此外,还发现两种常见的洗牌变体会导致更严重的隐私泄露(最多达10倍)。本工作强调了在缺乏严格分析方法的情况下使用洗牌替代泊松子采样的风险,为后续研究提供了审计工具和实证依据。
💡 推荐理由: 洗牌机制在DP-SGD中广泛应用,但实际隐私保证可能被严重高估,本审计方法能帮助安全工程师准确评估模型隐私风险。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Rishi Raj Sahoo, Jyotirmaya Shivottam, Subhankar Mishra
该论文研究了从差分隐私(DP)保护的图神经网络(GNN)解释中重建隐藏图结构的安全风险。虽然差分隐私通常被视为发布解释时降低隐私风险的标准手段,但作者证明了仅依赖DP并不足够:攻击者仅观察到经过DP扰动的GNN解释,就能以高精度重建原始图结构。作者提出的攻击方法PRIVX利用了高斯DP机制实质上是已知噪声水平σ(ε)下的单步DDPM(去噪扩散概率模型)前向过程,将重建问题转化为以被污染信号为条件的反向扩散,从而成为在已知DP扰动下的贝叶斯去噪器。论文形式化了一个分层攻击者模型,参数为(M, ε̂, δ̂, S, ρ),可插值从无信息攻击者到全能攻击者,并推导了重建AUC的端点匹配双边界。针对实践者,论文提供了关于解释器选择的按状态分层指导:在同质图上,相同DP预算下,邻域聚合解释器(如GraphLIME、GNNExplainer)比逐节点梯度解释器泄露更多结构;而在强异质图上顺序相反。此外,论文引入PRIVF作为辅助诊断工具,共享相同的扩散骨干,用于将泄露分解为解释器引起的部分和内在图分布引起的部分。在七个基准数据集、三种DP机制和三种GNN主干网络上的实验表明,PRIVX在五个数据集上实现了AUC大于0.7(ε=5),且攻击在典型部署的隐私预算内成功。
💡 推荐理由: 该研究揭示了一个重要的隐私漏洞:即使GNN解释满足差分隐私,攻击者仍可能重建敏感图结构(如社交关系、分子结构),这对使用GNN解释且依赖DP保护隐私的应用构成严重威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Bernd Finkbeiner, Frederik Scheerer
该论文研究了在隐私敏感环境中,运行时监控系统如何保护敏感信息的问题。现代基于流的监控器会收集被观测系统运行时的详细统计数据,这些数据可能泄露隐私。差分隐私是保护敏感信息的先进方法,但将其集成到运行时监控中面临挑战:时序算子会导致单个输入值随时间影响多个输出,从而反复泄露隐私。论文提出了一种自动在基于流的监控规范中强制实施差分隐私的方法,通过分析时间依赖性并在规范中注入经过校准的噪声来实现。为了保持输出的效用,论文识别了规范中策略性的噪声注入位置,并利用基于树的机制来减轻聚合算子噪声注入带来的精度损失。通过在公共交通使用监控的案例研究,展示了该方法的实用性和有效性。
💡 推荐理由: 为隐私敏感场景下的运行时监控提供了差分隐私自动集成方案,解决了时序算子导致隐私重复泄露的问题。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Judith Sáinz-Pardo Díaz, Álvaro López García
本文针对联邦学习中的隐私保护问题,提出了一套完整的隐私保护机器学习工作流,专注于敏感表格数据。首先,结合匿名化与差分隐私技术,在数据层面和模型训练层面提供隐私保障。其次,对客户端漂移(client drift)给出了正式定义,并设计了检测方法以减轻投毒攻击的影响。核心贡献在于提出了一种基于重识别风险度量的个性化全局差分隐私预算分配方法,允许为网络中不同客户端分配差异化的隐私预算。在公开的医疗记录数据集上的实验表明,与固定全局差分隐私预算的方案相比,所提出的个性化预算方法在两个误差指标上取得了更优的模型性能。该工作流涵盖了从数据预处理到模型聚合的全流程,为敏感数据场景下的联邦学习实践提供了系统性的隐私保护框架。
💡 推荐理由: 为联邦学习中的隐私预算分配提供了新颖的个性化思路,兼顾隐私与效用,并正式化客户端漂移概念以增强鲁棒性,对医疗等敏感领域的数据安全具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Seung-Hyun Nam, Hyun-Young Park, Si-Hyeon Lee
该论文研究本地差分隐私(LDP)下的最优隐私-效用权衡(PUT)问题。现有方法往往针对特定问题进行案例分析,缺乏统一理论框架。作者提出一个通用理论框架,系统刻画了一般隐私保护统计决策问题中的最优PUT和最优LDP通道。首先,他们识别了贝叶斯风险和极小化风险作为LDP通道函数的关键功能性质,包括数据处理不等式(DPI)、直和拟凸性(或可加性)、凹性和对称不变性。利用这些性质,他们缩小了计算最优PUT所需的优化域。此外,基于凸几何的洞见,他们建立了Blackwell序下最大LDP通道与有限维多面体之间的一一对应关系,给出了精确的几何刻画,使得最优PUT可以通过顶点枚举或线性规划进行有效计算。当问题具有由传递群作用表征的对称性时,他们推导出最优PUT的精确解析表达式,无需数值优化即可得到闭式解。该框架不仅适用于风险最小化,还广泛适用于信息论度量(如互信息、f-散度、Fisher信息)在LDP通道上的最大化。作者通过恢复或强化多个已知结果,并推导出此前未解决的特定任务中最优PUT的精确解析表达式,展示了该理论框架的有效性。该研究适合对差分隐私、信息论和统计决策理论感兴趣的研究者。
💡 推荐理由: 提供了LDP最优隐私-效用权衡的统一理论框架,将碎片化的结果系统化,并给出可计算的几何/解析方法,对隐私保护算法的设计和评估具有重要理论指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nicolas Küchler, Alexander Viand, Hidde Lycklama, Anwar Hithnawi
本文提出DPolicy系统,旨在解决差分隐私(DP)在组织级多轮数据发布中的累积隐私风险管理问题。差分隐私已被证明是保护隐私的强健框架,并在2020年美国人口普查等高规格场景中得到应用。然而,在组织环境中,DP的使用通常局限于孤立的数据发布,未能充分发挥其作为全面隐私风险管理的潜力。尽管理论上可以通过DP的组合性质评估孤立发布的累积隐私风险,但在实践中,每个发布的DP保证往往针对特定场景定制,导致难以推理其交互或合并影响;反之,较少定制的DP保证虽然易于组合,但会带来过大的隐私预算,意义有限。DPolicy通过灵活框架同时考虑多个DP保证,反映真实部署中多样化的上下文和范围。系统引入高层策略语言来形式化隐私保证,使传统上隐含的范围和上下文假设显式化。通过从这些高层策略推导出执行复杂隐私语义所需的DP保证,DPolicy实现了组织级别的细粒度隐私风险管理。实验表明,DPolicy能有效缓解缺乏全面组织隐私风险管理时出现的隐私风险。该工作适合隐私保护研究者、数据治理及合规团队阅读。
💡 推荐理由: 组织在多轮数据发布中缺乏统一隐私风险度量工具,DPolicy填补了这一空白,为安全团队提供可落地的跨发布累积隐私风险管理方案,降低组合攻击风险。
🎯 建议动作: 评估DPolicy在组织内多轮数据发布场景的适用性,考虑将隐私策略语言纳入现有合规流程。
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Pranay Mundra, Adam Sealfon, Ziteng Sun, Quanquan C. Liu
本文研究在线差分隐私(DP)线性查询流回答问题,针对数据库工作负载中查询流高度可预测的特点(即重复任务和模板主导,即使到达顺序未知),提出了一种学习增强型差分隐私算法LAPRAS。核心思想是利用预测来指导隐私预算分配:假设存在一个预言机,输出可能出现在流中的查询预测集,然后对预测查询使用离线最优的矩阵机制(Matrix Mechanism)在其对应的全局敏感度下进行回答,而对未预测到的查询则从剩余预算中在线回答。为了在未知数量的未预测查询之间合理分配隐私支出,论文提出了一种平滑分配(Smooth Allocation)方法,该方法通过前T=Θ(log²S)个未预测查询形成无偏停止时间估计,并持续重新校准每个查询的支出。实验结果显示,在两个真实数据集上,LAPRAS实现了预期的一致性与鲁棒性平衡:当预测与实际查询重叠度高时,达到接近离线最优的效用;重叠度低时,性能优雅地退化为基线水平。本文主要贡献在于将预测引入在线DP查询回答,同时保证了鲁棒性,并提出了理论保证的新分配机制。适合对差分隐私、数据库安全和学习增强算法感兴趣的研究人员阅读。
💡 推荐理由: 本文提出了一种新颖的学习增强型DP查询回答框架,能够在隐私预算有限的情况下显著提升效用,同时保持对预测错误的鲁棒性。对于实际数据库系统中的隐私保护部署具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Daniil Filienko, Martine De Cock, Sikha Pentyala
本文针对基因组数据的高度敏感性和访问限制,提出了一种跨机构安全合成基因组数据生成方法。由于基因组数据的隐私性,数据共享受到严格监管,阻碍了AI在基因组学中的发展。合成数据生成通过训练生成模型并采样保留相关统计信息的人工数据,可以在不泄露个体敏感信息的同时促进数据共享。但在许多应用中(如罕见病研究),单个机构的数据量不足以训练有效的生成模型,需要跨机构协作。为此,本文设计了一种结合安全多方计算(MPC)和差分隐私(DP)的方案,使得多个数据持有者能够在不暴露原始数据的情况下联合训练合成数据生成器。MPC确保输入隐私,即任何一方都不会以未加密形式泄露其数据;DP则提供输出隐私,通过限制从发布的合成数据中泄露信息来保护个体隐私。作者使用多个真实RNA-seq数据集在联邦环境中进行了实验,结果表明该方法能够在数据分布在不同机构的情况下生成高质量、高实用性的合成数据集,同时有效保护隐私。该工作为隐私保护的跨机构基因组数据共享提供了可行的技术路径。
💡 推荐理由: 该方法直接解决了基因组数据共享与隐私保护之间的矛盾,允许医疗机构在合规前提下安全合作,对推动基因组学AI研究有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Kecen Li, Chen Gong, Zinan Lin, Tianhao Wang, Xiaokui Xiao
该论文聚焦于差分隐私(DP)对比学习中的隐私-效用权衡问题。现有的DP对比学习方法因标准对比目标中样本间固有的强依赖性而遭受严重的效用退化:每个样本的梯度依赖于批次中的所有其他样本,这放大了DP噪声的影响。作者指出,有效的DP对比学习需要显式地减少这种内在的样本间依赖。为此,他们提出了DP-GCL,一个原则性的DP对比学习框架,通过限制组级贡献来结构化地限制梯度依赖。DP-GCL将每个批次划分为小的、不相交的组,并将可用的负样本限制在组内,从而局部化梯度影响并降低敏感度。为了弥补由此造成的负样本多样性损失,进一步引入了组内增强,在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的大量实验表明,在实际隐私预算下,DP-GCL在单模态和多模态对比学习中均持续提升了现有技术水平:与现有DP对比方法相比,图像分类准确率提升5.6%,图像-文本检索准确率提升20.1%。该工作为部署或共享在敏感用户数据上训练的嵌入模型提供了更实用的隐私保护方案。
💡 推荐理由: 该研究解决了DP对比学习中严重的效用退化问题,为安全工程师在保护用户隐私的同时保持模型可用性提供了新思路,尤其适用于需要发布或共享嵌入向量的场景。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)