#medical-ai 主题 - Cyber Security Daily Radar

👥 作者: Sasha Ronaghi, Sana Tonekaboni, Lena Stempfle, Vivian Utti, Jordan Li Cahoon, Nathaniel Hendrix, Ayin Vala, Marzyeh Ghassemi, Emily Alsentzer

该论文聚焦于医疗语言模型（LMs）的隐私评估问题。现有隐私评估往往只关注训练文本的恢复，而非现实威胁模型下的信息泄露。作者提出了一个临床接地的隐私评估框架，按敌手访问权限的梯度分级（从公开可推断的人口统计数据到泄露的笔记片段），在每个级别测量患者特定文本的逐字记忆和敏感诊断的语义泄露。将框架应用于一个在37.8万份临床笔记上预训练的LM，发现常规就诊元数据（如姓名、出生日期、提供者、诊所、就诊日期）能高概率地触发患者时间线内的逐字记忆和敏感诊断恢复（堕胎 AUROC 0.91，HIV 0.81）。同时，精确匹配的记忆可能夸大了信息披露：36%的记忆化标记来自模板化文档。该工作强调了在纵向临床数据上训练的风险，为医疗LMs的上下文隐私评估提供了实用框架。适合医疗AI安全研究员、隐私工程师和临床数据管理者阅读。

💡 推荐理由: 为医疗语言模型提供了贴近临床现实的隐私评估方法，揭示了常规元数据即可导致高度敏感信息泄露，对医疗AI部署中的隐私合规有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#medical-ai

Clinically Grounded Privacy Evaluation of Medical LMs