#contextual-integrity

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Xinyue Huang, Xiaochun Cao, Wenyuan Yang

本文针对用户向云端LLM发送查询时的隐私泄露问题,提出了一种基于情境完整性(Contextual Integrity, CI)的查询重写方法。现有基于PII类型的脱敏方式忽略上下文,导致两类问题:过度暴露未标注的敏感上下文,或过度移除与回答相关的片段。作者将隐私保护的查询重写重新定义在CI框架下:只有任务必需的字段才应被转发。为此,他们构建了首个任务导向的CI基准测试DelegateCI-Bench,包含3,167个样本,涵盖11个任务和20种任务类型,包括高质量合成数据、基于WildChat的真实用户查询以及一个密集敏感信息的医疗挑战集。在此基础上,他们提出CI引导的强化学习框架,将必需和非必需敏感字段转化为可验证的优化信号,训练查询重写器在保留任务关键信息的同时抑制不必要的敏感披露。实验表明,该学习型重写器在隐私-效用权衡上达到最佳,在设备端基线基础上平均效用提升高达+10.1。该研究为隐私感知的LLM委托提供了新范式。

💡 推荐理由: 随着LLM深度融入工作流,用户查询常混入非必要敏感信息,现有基于类型的脱敏效果不佳。本文提出基于情境完整性的查询重写,为解决隐私与效用矛盾提供了可量化的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.6
Conf: 50%
👥 作者: Sahar Abdelnabi, Eugene Bagdasarian

本文聚焦于AI代理中最关键的提示注入漏洞。作者首先指出现有的主流防御策略(数据-指令分离)存在根本性缺陷:它既无法检测通过上下文操纵(如误导性背景信息或角色扮演)发起的攻击,又会降低代理在正常场景下做出符合上下文的适当行为的能力。为了更系统地理解这一困境,作者引入隐私理论中的情境完整性(Contextual Integrity, CI)框架来重新定义提示注入。CI理论强调信息流动必须符合特定社会情境的规范,据此可将攻击划分为三种类型:(1)误述流程——攻击者谎报信息来源或目的;(2)操纵规范——攻击者改变用户对合法行为的期望;(3)混合多个流程——攻击者同时在多个上下文中注入指令。通过构造具体的良性实验场景,作者证明任何防御策略都无法同时保证安全性与可用性:攻击者总能构建一个上下文使得被屏蔽的流看起来合理,而防守方若收紧规范则会拒绝大量合法请求。这一发现揭示了“不可能结果”:提示注入无法被彻底消除,只能被管理。因此,当前基于指令-数据分离的研究路线只能应对未来攻击面中日益缩小的一部分。作者提出,CI框架为评估上下文敏感的安全失效提供了原则性方法,并为设计CI感知的对齐机制(如动态上下文审查和规范学习)指明了方向。论文适合AI安全研究人员、LLM应用开发者以及关注自主代理安全的工程师阅读。

💡 推荐理由: 该论文从根本上挑战了当前提示注入防御的基础假设,指出数据-指令分离范式存在不可克服的局限性,并引入情境完整性理论预测了未来更复杂的攻击形态。对构建安全代理系统的从业者具有重要警示意义。

🎯 建议动作: 纳入内部风险评估,建议安全团队阅读原文并评估其理论对现有防御体系的冲击,考虑引入情境完整性分析框架到安全设计中。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)