#privacy-audit 主题 - Cyber Security Daily Radar

👥 作者: Meenatchi Sundaram Muthu Selva Annamalai, Borja Balle, Jamie Hayes, Emiliano De Cristofaro

本文研究差分隐私随机梯度下降（DP-SGD）中，使用数据打乱（shuffling）替代传统泊松子采样（Poisson subsampling）时隐私保证的准确性。传统DP-SGD通过泊松子采样随机选择每轮训练批次，但打乱因计算开销低、兼容性好而被广泛采用，然而其理论隐私保证的紧致性仍是开放问题。现有实践常直接用泊松子采样的隐私分析来评估打乱下的模型，可能导致隐私保证被高估。为此，作者提出了面向打乱DP-SGD的新型审计程序，以量化理论隐私界限与实际泄露之间的差距。实验设置包括不同批次大小、隐私预算和威胁模型。结果表明，使用打乱的DP模型隐私保证被高估达4倍，且这种差距在不同参数和威胁模型下并不均匀。进一步研究发现，打乱过程的两种常见变体导致隐私泄露增加至多10倍。本文强调了在缺乏严格分析方法时，使用打乱替代泊松子采样存在的隐私风险。适合研究差分隐私、机器学习隐私保护的研究者和工程师阅读。

💡 推荐理由: 差分隐私实践中广泛使用打乱来减少计算开销，但本文首次系统审计了打乱DP-SGD的真实隐私泄露，发现理论保证可能严重高估，直接影响隐私预算的可靠性，对合规审计和安全部署有重要警示。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

该研究探讨了代码语言模型中的功能性记忆（functional memorization）现象，即模型在生成代码时可能会复制训练数据中的功能逻辑，即使文本上不相似。现有工作主要基于文本重叠的审计指标来检测训练数据泄露，但代码具有功能等价而文本不同的特点。作者为Olmo-3-32B模型构建了一个反事实实验设置：比较一个中间训练版本（已暴露于目标代码）和一个预训练参考版本（未暴露）。向两个模型提供Python函数签名，并分别评估生成代码的文本相似性和功能相似性（使用LLM作为评判和基于执行的方法）。实验结果显示明确的功能性记忆证据，表明需要超越文本重叠的审计指标。该工作对代码生成模型的安全审计和数据隐私保护具有重要意义。

💡 推荐理由: 揭示了代码语言模型可能通过功能等价的方式泄露训练数据，现有文本重叠指标无法检测，对模型隐私审计提出新挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Rishav Chourasia, Ergute Bao, Uzair Javaid, Xiaokui Xiao

本文对苹果公司差分隐私框架（DifferentialPrivacy.framework）进行了首次客户端审计，覆盖 macOS Sonoma 14.2 和 Sequoia 15.6 系统。苹果自 2016 年起声称其设备分析数据受差分隐私保护，但并未开源私有化算法，导致独立验证困难。研究团队通过逆向工程、恢复 Objective-C 接口、构建运行时测试工具，对苹果实际部署的 Count Median Sketch、Hadamard-CMS、随机响应机制和 Prio 类安全聚合等机制进行了全面测试。结果发现多个编程错误和配置缺陷：所有依赖浮点噪声的机制均因使用不安全的采样器而未能达到宣称的差分隐私或零知识证明保证；部分安全聚合配置禁用了本地差分隐私，使得拥有日志访问权限的方可获取聚合前的原始记录。在审计的 9 个机制中，5 个存在差分隐私违规问题，影响 macOS Sonoma 87% 和 Sequoia 68% 的数据收集。此外，他们还发现了公开泄露的 iPhone 日志，可被解码恢复 Safari 域名和键盘表情符号等私密信息。该研究揭示了苹果差分隐私实现中的系统性风险，对用户隐私保护构成实际威胁。

💡 推荐理由: 苹果的差分隐私框架广泛用于用户数据分析，但实际实现存在严重漏洞，导致隐私保证失效。安全从业者需了解这些风险，以评估苹果设备的隐私保护可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#privacy-audit

To Shuffle or not to Shuffle: Auditing DP-SGD with Shuffling.

Detecting Functional Memorization in Code Language Models

Auditing Apple's DifferentialPrivacy.framework: Implementation Bugs, Misconfigurations, and Practical Risks