#consent-integrity 主题 - Cyber Security Daily Radar

👥 作者: Xiaoqi Weng

本研究聚焦于黑盒大语言模型（LLM）代理的审批流程安全。当前编码代理将高风险操作（如执行命令）置于人类审批之后，但审批对话框由代理自身生成：人类批准的是代理撰写的摘要。Lies-in-the-Loop (LITL) 攻击表明，被攻陷的代理可以伪造摘要，展示良性描述的同时执行恶意操作。为了解决这一缺陷，论文提出“同意完整性”（Consent Integrity）概念，借鉴经典信息安全中的“所见即所签”（WYSIWYS）和可信路径属性，将其引入代理审批通道。核心机制是：在系统边界处设置一个受信任的调解器，该调解器从实际低级事件（如系统调用）直接渲染出展示给人类的内容，确保用户看到的操作与即将执行的操作精确一致，且渲染路径不被代理篡改。与传统 WYSIWYS 不同，这里的渲染器本身可能被攻击（因为 LLM 代理是可变的），且边界真相是低级事件，必须在不信任代理的前提下解码。由于通用解码器不可能完美，论文提出“分析器相对”的可实现目标：凡是分析器无法分类的动作，标记为“不可检查”而非静默批准。原型实现了分析器、渲染器和执行绑定组件，但总调解和可信路径仅作为规范假设而未完整实现。在 GTFOBins 数据集（1330 条信任工具滥用命令）上，原型静默通过了 10.0% 的命令（这些命令均通过白名单工具执行）；在 tldr 数据集（28798 条正常使用命令）上，原型将 87.0% 的命令标记为不可检查。这两个独立测量揭示了设计的核心张力：限定静默通过的信任列表也正是导致过度提示的原因，而纯边界调解器只能沿此界限移动，无法突破。论文的主要贡献是定义了“同意完整性”这一属性，提出了基于边界调解的机制，并诚实展示了其局限性，而非提供已解决的防御方案。适合对 LLM 代理安全、人机交互安全及可信计算感兴趣的读者。

💡 推荐理由: 当前 LLM 代理的审批流程存在根本性盲区：用户批准的是代理自我叙述的摘要，攻击者可轻松伪造。本研究首次将“所见即所签”原则引入该场景，揭示了必须由不可信代理之外的受信任组件来确保用户同意与实际执行一致，为构建更安全的代理系统提供了理论基础和设计方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#consent-integrity

What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents