推荐 5.5
Conf: 50%
本文针对大型语言模型(LLM)在临床部署中因传输原始敏感健康信息而导致的隐私泄漏风险,提出了一个名为HERALD(Healthcare Encryption & Redaction via Adaptive Linguistic Decomposition)的令牌级加密改写框架。该框架在客户端运行,模型无关,无需修改下游模型。HERALD首先利用医学命名实体识别器(NER)和词性(POS)驱动的策略选择候选敏感令牌,然后对选中的令牌进行目标词形还原以稳定表面形式,最后用确定性密文包裹在显式分隔符内替换每个受保护令牌。这样,敏感内容在存储、传输和处理过程中始终保持加密状态,而上下文被保留以供下游模型使用。实验在公开数据集上针对分类和医学问答(MQA)任务进行,结果显示完全加密基线遭受显著的效用损失,而HERALD一致地将性能恢复至接近明文水平。HERALD提供了一种新颖的实用pipeline,在隐私保护与模型可用性之间取得了平衡。
💡 推荐理由: 该研究直接解决了医疗等敏感领域使用LLM时面临的隐私合规与数据可用性矛盾,提出的客户端侧、模型无关的令牌级加密改写方法具有实际部署价值,为隐私保护NLP pipeline设计提供了新思路。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)