#prompt-sanitization

共收录 1 条相关安全情报。

← 返回所有主题
推荐 11.5
Conf: 50%
👥 作者: Amrita Roy Chowdhury 0001, David Glukhov, Divyam Anshumaan, Prasad Chalasani, Nicolas Papernot, Somesh Jha, Mihir Bellare

本文提出名为 Prεεmpt 的框架,旨在解决大语言模型(LLM)输入提示中包含的敏感信息泄露风险。现有方法要么依赖手动规则,要么无法在隐私保护与模型效用之间取得良好平衡。Prεεmpt 采用基于强化学习的智能清洗机制,能够自动识别提示中的敏感实体(如姓名、地址、身份证号等),并将其泛化为语义等价但不可直接识别的替代符,同时保留任务所需的上下文信息。具体地,框架包含一个可训练的清洗策略网络,通过奖励函数同时优化隐私保护程度和下游任务性能。在多个基准数据集(如命名实体识别、情感分析、问答)上的实验表明,Prεεmpt 相比基线方法(如随机替换、差分隐私提示)在隐私-效用权衡上取得显著提升:在保持高任务准确率(平均下降<2%)的前提下,将敏感信息泄露风险降低超过80%。此外,Prεεmpt 具备模型无关性,可灵活适配不同 LLM 架构和任务类型。该工作为构建隐私安全的 LLM 应用提供了自动化、可扩展的解决方案。

💡 推荐理由: LLM 应用中的提示隐私是实际部署的关键挑战,Prεεmpt 首次将强化学习用于敏感提示清洗,兼顾效用与隐私,对安全合规场景(如医疗、金融)有直接参考价值。

🎯 建议动作: 研究跟进,评估若引入内部 LLM 工作流中的提示清洗环节。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)