#clinical-nlp 主题 - Cyber Security Daily Radar

👥 作者: Farhan Sheth, Ziyuan Yang, Yongying Lan, Si Yong Yeo

本文针对大型语言模型（LLM）在临床部署中因传输原始敏感健康信息而导致的隐私泄漏风险，提出了一个名为HERALD（Healthcare Encryption & Redaction via Adaptive Linguistic Decomposition）的令牌级加密改写框架。该框架在客户端运行，模型无关，无需修改下游模型。HERALD首先利用医学命名实体识别器（NER）和词性（POS）驱动的策略选择候选敏感令牌，然后对选中的令牌进行目标词形还原以稳定表面形式，最后用确定性密文包裹在显式分隔符内替换每个受保护令牌。这样，敏感内容在存储、传输和处理过程中始终保持加密状态，而上下文被保留以供下游模型使用。实验在公开数据集上针对分类和医学问答（MQA）任务进行，结果显示完全加密基线遭受显著的效用损失，而HERALD一致地将性能恢复至接近明文水平。HERALD提供了一种新颖的实用pipeline，在隐私保护与模型可用性之间取得了平衡。

💡 推荐理由: 该研究直接解决了医疗等敏感领域使用LLM时面临的隐私合规与数据可用性矛盾，提出的客户端侧、模型无关的令牌级加密改写方法具有实际部署价值，为隐私保护NLP pipeline设计提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#clinical-nlp

Selective Token-Level Cryptographic Redaction for Privacy-Preserving Clinical Deployment of Large Language Models