#synthetic-data 主题 - Cyber Security Daily Radar

👥 作者: Kai-Xian Wong, Chan-Jien Tan, Yi-Ting Huang, Ying-Ren Guo, Yu-Zih Jheng, Guo-Wei Wong, Meng Chang Chen

本文提出LogCraft，一种面向CVE感知的合成日志数据生成方法。研究背景是安全分析依赖高质量日志数据，但真实日志难以获取且标注昂贵。核心问题是如何生成既符合现实分布又包含已知漏洞（CVE）信息的合成日志，以支持入侵检测、日志分析等安全任务。方法上，LogCraft利用CVE数据库中的漏洞描述，结合日志模板和领域知识，通过生成对抗网络或规则引擎创建多样化的日志样本，并确保生成的日志包含真实的攻击特征与背景流量。主要贡献包括：1）提出一种融合CVE信息的日志生成框架；2）设计评估指标验证合成日志的真实性和有效性；3）在多个安全数据集上实验，证明生成的日志可用于训练检测模型并提升其鲁棒性。本文适合安全研究人员、蓝队分析师及数据科学家阅读，尤其对需要构建日志驱动检测系统的团队有参考价值。

💡 推荐理由: 合成日志数据是解决安全领域数据稀缺及隐私问题的关键，LogCraft首次将CVE知识融入日志生成，可帮助蓝队低成本构建高保真测试环境，提升检测模型对未知漏洞的泛化能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Stephanie Polczynski, John D. Hastings, Varghese Vaidyan, Kyle Korman

智能城市依赖融合传感器、物联网设备、云平台和AI驱动服务的网络物理系统，这些系统在提升城市服务的同时，由于其巨大的攻击面、异构数据流和不断演变的威胁向量，引入了复杂的网络安全挑战。开发并验证智能城市网络安全工具需要高质量的数据集来准确反映真实运行条件。然而，真实数据集往往不完整、包含隐私敏感数据、难以获取或缺乏足够的恶意活动来支持工具开发。本研究通过提出一个专门为智能城市网络安全研究设计的基于AI的合成数据生成（SDG）框架来弥补这一关键缺口。该框架利用生成式人工智能模型生成高保真度的合成网络安全数据集，这些数据集能够复制真实的设备行为、网络交互和网络攻击场景。合成数据集经过评估，以确认其对协议标准的符合性、与原始数据集的统计相似性以及在常见安全工具中的实用性。所提出的合成数据生成框架和评估指标有望通过使研究人员能够更有效地对威胁进行建模并更全面地评估防御技术，从而推进智能城市网络安全，更好地保护关键智能城市基础设施。

💡 推荐理由: 解决了智能城市网络安全研究中高质量数据稀缺的瓶颈，为安全工具开发与评估提供了可扩展、隐私合规的数据源。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nicole Mitchell, Galen Andrew, Arun Ganesh, Brendan McMahan, Peter Kairouz

本文针对大型语言模型（LLM）在参数高效微调过程中可能记忆个体训练样本的问题，提出了一种创新性的经验性隐私审计（EPA）方法。研究背景：微调后的LLM可能泄露隐私，现有审计方法依赖人工设计的“金丝雀”样本，但难以模拟真实数据分布且可能引入隐私风险。核心方法：作者提出利用高温采样（T≥0.8）从LLM本身生成合成金丝雀，这些金丝雀与隐私敏感训练数据分布相似，且具有高影响力（outlier特性），从而在成员推断或重建攻击中实现高识别性，显著提升审计效能。由于合成金丝雀本身不含真实隐私，可重复插入且易于检查，不会危及原始数据隐私。此外，针对微调模型生成合成数据这一重要应用场景，本文引入了一种强大的合成数据审计方法：在合成数据上微调辅助模型，然后审计该辅助模型对原始金丝雀的泄露程度，从而量化合成数据的隐私风险。最后，利用所提审计方法，系统研究了模型容量与金丝雀熵对记忆化的交互影响。实验证明，该方法在多个基准数据集上实现了最先进的隐私审计效果，为LLM隐私风险评估提供了实用工具。

💡 推荐理由: 本方法为LLM隐私审计提供了自动化、无需人工标注金丝雀的解决方案，使安全团队能够更高效地评估微调模型的数据泄露风险，尤其适用于合成数据场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Steven Golob, Sikha Pentyala, Martine De Cock

本文是首篇对合成表格数据的重建攻击（即属性推断攻击）进行系统化研究的论文。研究背景是合成数据被广泛宣传为一种隐私保护替代方案，用于发布敏感表格记录，但对其核心对抗威胁——重建攻击（通过合成数据和少量已知准标识符恢复个体隐藏属性值）的研究此前零散且难以比较。作者构建了攻击分类体系，按攻击利用的结构（如分布、关联、记忆）组织攻击；进行了迄今最系统的实证评估，在五个基准数据集上评估了九种合成数据生成（SDG）方法对十四种攻击的抵抗能力；并提出了一组填补分类空白的新攻击，其中CoBP-RA是测得的最强攻击。关键贡献在于引入了解释攻击成功含义的方法论：一个记忆测试，区分重建攻击是利用了总体分布还是对训练记录的记忆；以及一个约化方法，将重建攻击和成员推断攻击置于同一可比尺度。主要发现包括：SDG方法的选择对风险的影响远大于攻击选择；差分隐私（DP）仅在很小的预算（ε≲1）下有效，超过后保护效果趋于平稳，受限于合成器的容量而非噪声；去标识化方法暴露风险最高；大多数重建攻击反映的是分布结构而非记忆，个体风险集中在异常记录上。该攻击和基础设施在2025年美国国家标准与技术研究院（NIST）合作研究周期中，在所有红队中获得第一名，从而得到外部验证。

💡 推荐理由: 系统化揭示了合成表格数据重建攻击的威胁全貌，为防御者评估和选择SDG方法、配置差分隐私预算提供了实证依据，尤其指出低DP预算以外的保护效果有限，且去标识化方法存在高风险。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peihan Liu, Lucas Rosenblatt, Weiwei Kong, Natalia Ponomareva, Gautam Kamath, Rachel Cummings, Roxana Geambasu, Yu Gan, Lillian Tsai, Alex Bie

差分隐私（DP）文本合成技术旨在通过生成合成数据来解锁敏感语料库，使其可用于模型训练，同时保护隐私。然而，现有评估基准存在重大局限性：它们使用的任务通常即使不经过训练也能近乎解决，因此强基准性能并不能证明DP合成数据能够替代原始数据访问。为了填补这一评估空白，本文提出了ContinuousBench——一个持续自动更新的基准，用于衡量DP合成文本带来的能力增益。每个季度，ContinuousBench会发布一个全新的训练语料库及对应的问答（QA）数据集，这些数据被设计为：（1）没有语料库则无法解决；（2）在DP下可学习，因为测试知识由数百条独立记录支持。研究人员从训练语料库中生成DP合成数据，并通过标准化的训练和评估工具衡量能力提升。ContinuousBench包含两个赛道：Geminon，一个关于虚构生物的程序生成数据集；以及News，一个持续爬取的公共新闻文章流。实验结果表明，虽然标准基准已近乎饱和，但在ContinuousBench上，非私有合成数据能够从原始语料库中传递大量知识，而最先进的DP合成方法即使在ε=100的高隐私预算下也基本无法做到这一点。这揭示了当前DP合成文本在传递新知识和能力方面的严重不足，对依赖DP合成数据作为数据访问替代方案的研究与实践提出了挑战。

💡 推荐理由: 该基准揭示了现有DP合成文本在传递语料库特有知识方面的根本性失败，促使安全从业者重新评估DP合成数据在敏感数据共享与模型训练中的实际效用，并推动更有效的DP合成方法研发。

🎯 建议动作: 研究跟进：关注ContinuousBench后续版本及基于该基准的DP合成方法改进成果，评估自身场景下DP合成数据的实际能力增益。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fengyu Gao, Jing Yang

本文提出 DPPrefSyn，一种用于生成差分隐私（DP）合成偏好数据的新算法，旨在保护大语言模型（LLM）对齐过程中的隐私。在偏好对齐的后训练阶段，使用真实人类偏好数据可能泄露敏感的用户提示和判断。DPPrefSyn 基于 Bradley-Terry 偏好模型和成对偏好数据的内在几何结构，首先从私有数据中学习具有严格差分隐私保证的潜在偏好模型，然后利用该模型与公共提示生成高质量的合成偏好数据。该方法通过利用每簇奖励模型的共享线性结构来有效捕获私有数据中的异质人类偏好，并使用差分隐私主成分分析（DP-PCA）提高学习准确性。大量实验表明，DPPrefSyn 在强 DP 保证下实现了有竞争力的对齐性能。这是首个生成 DP 合成偏好数据用于 LLM 对齐的工作，代码已开源。

💡 推荐理由: LLM 对齐依赖人类偏好数据，但隐私问题日益突出。本文第一个提出差分隐私合成偏好数据方法，为隐私保护对齐提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zheng Liu, Chen Gong 0005, Terry Yue Zhuo, Kecen Li, Weichen Yu, Matt Fredrikson, Tianhao Wang

该论文提出了PrivCode，这是首个专门为代码数据集设计的差分隐私（DP）合成器，旨在解决大型语言模型（LLM）在代码生成时微调私有数据集可能引发的隐私泄露问题。传统的DP方法在代码数据上面临语法依赖强和隐私-效用权衡的挑战。PrivCode采用两阶段框架：第一阶段“隐私净化”，利用DP-SGD训练模型生成符合差分隐私的合成代码，并通过引入语法信息保留代码结构；第二阶段“效用提升”，在合成的无隐私代码上微调更大的预训练LLM，以缓解DP带来的效用损失。在四个LLM和四个基准测试上的实验表明，PrivCode在各种任务下生成的代码具有更高的效用，同时在不同隐私预算下能保护敏感数据。该研究为代码领域的隐私保护生成提供了新的方法论，适合对差分隐私、代码生成和LLM隐私保护感兴趣的研究者阅读。

💡 推荐理由: 首次将差分隐私合成技术应用于代码数据集，提出两阶段框架平衡隐私与效用，对保护企业专有代码和用户隐私有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Daniil Filienko, Martine De Cock, Sikha Pentyala

本文针对基因组数据的高度敏感性和访问限制，提出了一种跨机构安全合成基因组数据生成方法。由于基因组数据的隐私性，数据共享受到严格监管，阻碍了AI在基因组学中的发展。合成数据生成通过训练生成模型并采样保留相关统计信息的人工数据，可以在不泄露个体敏感信息的同时促进数据共享。但在许多应用中（如罕见病研究），单个机构的数据量不足以训练有效的生成模型，需要跨机构协作。为此，本文设计了一种结合安全多方计算（MPC）和差分隐私（DP）的方案，使得多个数据持有者能够在不暴露原始数据的情况下联合训练合成数据生成器。MPC确保输入隐私，即任何一方都不会以未加密形式泄露其数据；DP则提供输出隐私，通过限制从发布的合成数据中泄露信息来保护个体隐私。作者使用多个真实RNA-seq数据集在联邦环境中进行了实验，结果表明该方法能够在数据分布在不同机构的情况下生成高质量、高实用性的合成数据集，同时有效保护隐私。该工作为隐私保护的跨机构基因组数据共享提供了可行的技术路径。

💡 推荐理由: 该方法直接解决了基因组数据共享与隐私保护之间的矛盾，允许医疗机构在合规前提下安全合作，对推动基因组学AI研究有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#synthetic-data

Poster: LogCraft: Crafting CVE-Aware Synthetic Worlds (Logs).

Bridging the Smart City Cybersecurity Data Gap Through AI-Driven Synthetic Dataset Generation

Advancing the State-of-the-Art in Empirical Privacy Auditing

SoK: Reconstruction Attacks on Synthetic Tabular Data (Insights from Winning the NIST CRC)

ContinuousBench: Can Differentially Private Synthetic Text Improve Capabilities?

Differentially Private Preference Data Synthesis for Large Language Model Alignment

PrivCode: When Code Generation Meets Differential Privacy.

Secure Cross-Silo Synthetic Genomic Data Generation