#privacy leakage 主题 - Cyber Security Daily Radar

👥 作者: Santhosh Parampottupadam, Andres Martinez, Dimitrios Bounias, Sinem Sav, Klaus Maier-Hein, Ralf Floca

联邦学习（FL）允许多机构在不共享原始数据的情况下联合训练临床文本模型，但梯度反演可能从共享的模型更新中重建敏感信息。本文系统量化了放射学报告中基于梯度的文本重建风险，并比较了三种分词器（GPT-2、RadBERT、LLaMA-2）对隐私泄露的影响，同时保持模型架构（GPT-2风格Transformer，序列长度32）固定。实验涉及六个FL客户端，在公共放射学语料库（368,751份诊断报告、98,206份出院小结、1,500份MIMIC-CXR自由文本报告）上训练，批大小设置为64、128和256。假设存在主动恶意的服务器，在分发前修改共享架构，作者应用解析梯度反演方法，测量五次运行的重建保真度。结果显示，不同分词器的精确句子重建率为31%至44%（在27个分词器×数据集×批大小的组合中为30.6%至43.5%）。在出院数据集上，批大小为64时，GPT-2、RadBERT和LLaMA-2的准确率分别为42.1%、42.3%和39.4%；批大小增至256时，分别降至37.3%、37.2%和34.3%。S-BLEU随批大小增加而下降（GPT-2：0.44降至0.33；RadBERT：0.48降至0.35）。RadBERT取得了最高的重建保真度，并恢复了最多的临床术语（占1,440个参考词汇的18.1%，而GPT-2为12.5%，LLaMA-2为9.4%）。然而，没有分词器能完全防止泄露。研究表明，即使在较大批大小和领域专用分词器下，报告文本的相当大一部分仍可从FL梯度中恢复。分词器设计不仅影响效用，还影响隐私风险严重程度；要满足HIPAA和GDPR对放射学NLP中FL的要求，可能需要安全聚合和差分隐私等保障措施。

💡 推荐理由: 该研究首次系统比较了不同分词器在联邦学习中导致的隐私泄露差异，揭示分词器设计是影响梯度反演风险的关键因素，对于医疗NLP应用中的隐私保护具有重要指导意义。

🎯 建议动作: 研究跟进，考虑在联邦学习部署中评估分词器选择对隐私的影响，并引入差分隐私等防护机制。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#privacy leakage

Privacy Leakage in Federated Learning in Radiology Reports: A Comparative Evaluation of Tokenizer-Driven Privacy Risks