#prompt-sanitization 主题 - Cyber Security Daily Radar

👥 作者: Chen Gu, Hui Wan, Donghui Hu, Hui Wang, Zhuoer Gu

本论文针对大型语言模型（LLM）服务中的隐私保护问题提出了一种新的提示清洗方法PromptGraph。LLM推理过程中，用户的敏感信息不仅可能通过显式标识符（如姓名、电话号码）泄露，还可能通过看似无害的文本片段之间的上下文关联被推断。现有的提示清洗方法通常为每个片段单独分配隐私或效用信号，忽略了片段之间的成对关系。PromptGraph将每个提示表示为属性图，其中节点承载片段的隐私分数，边编码维持效用所需的上下文依赖关系。清洗目标是在最大化隐私增益的同时，惩罚上下文依赖关系的损失，从而在隐藏上下文证据时显式平衡隐私与效用。受保护的片段会被本地清洗，返回的占位符只有在通过局部一致性检查后才被恢复。实验结果表明，PromptGraph在隐私与效用之间取得了比现有的提示隐私基线更优的平衡。该方法为LLM隐私保护提供了新思路，特别适合需要同时保护隐私和保持推理质量的场景，如医疗、金融等敏感领域。

💡 推荐理由: 该研究提出了一种图引导的提示清洗方法，能够显式建模片段间的上下文依赖关系，在保护隐私的同时保持LLM推理的效用，为实际部署隐私保护LLM服务提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Amrita Roy Chowdhury 0001, David Glukhov, Divyam Anshumaan, Prasad Chalasani, Nicolas Papernot, Somesh Jha, Mihir Bellare

本文提出名为 Prεεmpt 的框架，旨在解决大语言模型（LLM）输入提示中包含的敏感信息泄露风险。现有方法要么依赖手动规则，要么无法在隐私保护与模型效用之间取得良好平衡。Prεεmpt 采用基于强化学习的智能清洗机制，能够自动识别提示中的敏感实体（如姓名、地址、身份证号等），并将其泛化为语义等价但不可直接识别的替代符，同时保留任务所需的上下文信息。具体地，框架包含一个可训练的清洗策略网络，通过奖励函数同时优化隐私保护程度和下游任务性能。在多个基准数据集（如命名实体识别、情感分析、问答）上的实验表明，Prεεmpt 相比基线方法（如随机替换、差分隐私提示）在隐私-效用权衡上取得显著提升：在保持高任务准确率（平均下降<2%）的前提下，将敏感信息泄露风险降低超过80%。此外，Prεεmpt 具备模型无关性，可灵活适配不同 LLM 架构和任务类型。该工作为构建隐私安全的 LLM 应用提供了自动化、可扩展的解决方案。

💡 推荐理由: LLM 应用中的提示隐私是实际部署的关键挑战，Prεεmpt 首次将强化学习用于敏感提示清洗，兼顾效用与隐私，对安全合规场景（如医疗、金融）有直接参考价值。

🎯 建议动作: 研究跟进，评估若引入内部 LLM 工作流中的提示清洗环节。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#prompt-sanitization

PromptGraph: Graph-Guided Prompt Sanitization for Balancing Privacy and Utility in LLM Inference

Prεεmpt: Sanitizing Sensitive Prompts for LLMs.