#structured-text

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Xuancheng Zhu, Guoshun Nan, Han Zhang, Ben Niu, Yang Yue, Zixu Wang, Yilian Liu, Min Lei, Xiaofeng Tao

在现实数据驱动应用中,许多场景依赖结构化文本记录(如临床分诊笔记、金融交易日志)进行下游学习与决策。然而,在隐私敏感领域(如医疗、金融),对这些记录的访问受到严格监管,通常只能获得少量私有样本用于模型开发与分析。现有的差分隐私数据合成方法面临困境:表格方法无法忠实建模自由文本,而基于文本的方法又常常破坏结构化约束。为此,本文提出 SelPE(Selection-guided Progressive Evolution),一种针对小样本私有结构化文本合成的选择引导渐进进化框架。SelPE 不依赖噪声聚合或私有模型训练,而是将隐私预算集中在一系列多批 top-1 选择上,从而在严格的隐私约束下实现高效引导。为了支持忠实且有效的合成,SelPE 通过两阶段生成流水线将语义抽象与模式实现解耦,并利用多通道距离核(同时建模文本、类别和数值字段的原始表示)评估候选样本。此外,非私有对比扩展机制在不增加额外隐私成本的前提下促进了多样性。广泛的实验表明,在严格的差分隐私预算下,SelPE 在低数据场景中持续提升了结构有效性、保真度和下游效用。该方法为隐私保护下的结构化数据合成提供了新思路,特别适用于数据稀疏但结构化要求高的领域。

💡 推荐理由: 为隐私敏感领域(如医疗、金融)提供一种在极少样本下合成高质量结构化文本的方法,平衡隐私保护与数据可用性,有助于缓解数据孤岛问题。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)