#contextual-integrity 主题 - Cyber Security Daily Radar

👥 作者: Shubham Gupta, Nazanin Mohammadi Sepahvand, Abhinav Kumar, Cem Subakan, Spandana Gella, Pierre-André Noël, Perouz Taslakian, Eugene Bagdasarian, Valentina Zantedeschi

该论文提出了 PiSAs（Privacy in Shared Agentic Systems）基准，用于评估多用户共享智能体系统中的隐私泄露风险。随着大语言模型（LLM）智能体从单用户助手发展为共享组织基础设施，新的隐私风险随之出现：不适当的信息不仅可能通过输出泄露给外部接收者，还可能通过智能体间消息、共享记忆和智能体内部机制在用户之间发生跨用户泄露。现有的基于上下文完整性（CI）的隐私基准主要关注单用户设置或独立拥有的智能体之间的交互，无法捕获这些数据溢出风险。PiSAs 引入了双重 CI 注释：一条信息是否适合当前任务，以及哪些用户有权合法访问它。这使得可以直接测量跨用户溢出在智能体系统组件和接口（如输出、智能体间通信和记忆）上的表现。PiSAs 与系统无关，支持在不同智能体拓扑和记忆模式下进行评估。实验发现，尽管系统设计改善了 CI 合规性，但结果受到 LLM 错误判断的瓶颈：即使是最先进的模型也无法可靠地过滤不适当内容或将传输限制在授权用户之间。研究强调了在 LLM 智能体系统中采用隐私保护策略的必要性，超越了本文所研究的范围。该基准为多用户智能体系统的隐私评估提供了标准化方法，有助于推动更安全的系统设计。

💡 推荐理由: 随着 LLM 智能体在企业环境中广泛应用，跨用户隐私泄露成为关键风险。PiSAs 填补了现有基准的空白，首次系统性地评估多用户场景下的上下文完整性，对安全工程师设计隐私保护策略具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinyue Huang, Xiaochun Cao, Wenyuan Yang

本文针对用户向云端LLM发送查询时的隐私泄露问题，提出了一种基于情境完整性（Contextual Integrity, CI）的查询重写方法。现有基于PII类型的脱敏方式忽略上下文，导致两类问题：过度暴露未标注的敏感上下文，或过度移除与回答相关的片段。作者将隐私保护的查询重写重新定义在CI框架下：只有任务必需的字段才应被转发。为此，他们构建了首个任务导向的CI基准测试DelegateCI-Bench，包含3,167个样本，涵盖11个任务和20种任务类型，包括高质量合成数据、基于WildChat的真实用户查询以及一个密集敏感信息的医疗挑战集。在此基础上，他们提出CI引导的强化学习框架，将必需和非必需敏感字段转化为可验证的优化信号，训练查询重写器在保留任务关键信息的同时抑制不必要的敏感披露。实验表明，该学习型重写器在隐私-效用权衡上达到最佳，在设备端基线基础上平均效用提升高达+10.1。该研究为隐私感知的LLM委托提供了新范式。

💡 推荐理由: 随着LLM深度融入工作流，用户查询常混入非必要敏感信息，现有基于类型的脱敏效果不佳。本文提出基于情境完整性的查询重写，为解决隐私与效用矛盾提供了可量化的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sahar Abdelnabi, Eugene Bagdasarian

本文聚焦于AI代理中最关键的提示注入漏洞。作者首先指出现有的主流防御策略（数据-指令分离）存在根本性缺陷：它既无法检测通过上下文操纵（如误导性背景信息或角色扮演）发起的攻击，又会降低代理在正常场景下做出符合上下文的适当行为的能力。为了更系统地理解这一困境，作者引入隐私理论中的情境完整性（Contextual Integrity, CI）框架来重新定义提示注入。CI理论强调信息流动必须符合特定社会情境的规范，据此可将攻击划分为三种类型：（1）误述流程——攻击者谎报信息来源或目的；（2）操纵规范——攻击者改变用户对合法行为的期望；（3）混合多个流程——攻击者同时在多个上下文中注入指令。通过构造具体的良性实验场景，作者证明任何防御策略都无法同时保证安全性与可用性：攻击者总能构建一个上下文使得被屏蔽的流看起来合理，而防守方若收紧规范则会拒绝大量合法请求。这一发现揭示了“不可能结果”：提示注入无法被彻底消除，只能被管理。因此，当前基于指令-数据分离的研究路线只能应对未来攻击面中日益缩小的一部分。作者提出，CI框架为评估上下文敏感的安全失效提供了原则性方法，并为设计CI感知的对齐机制（如动态上下文审查和规范学习）指明了方向。论文适合AI安全研究人员、LLM应用开发者以及关注自主代理安全的工程师阅读。

💡 推荐理由: 该论文从根本上挑战了当前提示注入防御的基础假设，指出数据-指令分离范式存在不可克服的局限性，并引入情境完整性理论预测了未来更复杂的攻击形态。对构建安全代理系统的从业者具有重要警示意义。

🎯 建议动作: 纳入内部风险评估，建议安全团队阅读原文并评估其理论对现有防御体系的冲击，考虑引入情境完整性分析框架到安全设计中。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#contextual-integrity

PiSAs: Benchmarking Contextual Integrity in Multi-User Agentic Systems

Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation

AI Agents May Always Fall for Prompt Injections