#intent-to-execution

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Wenjie Qu, Ming Xu, Peiran Wang, Shengfang Zhai, Jiaheng Zhang, Dawn Song

本文是一篇立场论文,旨在为大型语言模型(LLM)智能体建立端到端的安全正确性定义。作者提出,现代LLM智能体运行在一个“意图到执行”的流水线上:用户以自然语言表达意图,智能体将其翻译为具体的系统操作(如工具调用、API请求和代码执行)。当前防御措施大多假设工具是可信的,但OpenClaw等系统引入了第三方技能开放生态和直接访问用户环境的能力,打破了这一假设,暴露出恶意或过度权限组件等新的故障模式。尽管防御机制发展迅速,但缺乏一个合适的正确性属性来定义智能体“安全”的含义。作者观察到LLM智能体在结构上与编译器类似——安全违规相当于未能保留用户意图的误执行。基于这一类比,他们识别出两个根本问题来源:不可信的数据摄取和不可信的工具执行,并推导出必须同时满足的四个完整性属性:工具完整性、指令完整性、判断完整性和数据流完整性。这四个属性合称为“意图到执行完整性”。分析现有智能体防御方案发现,当前系统只提供了部分且非组合的覆盖,在保护现代LLM智能体方面存在根本性空白。本文为安全从业者提供了一个系统性的框架来评估和设计更全面的防御策略。

💡 推荐理由: 本文首次从编译器安全类比出发,系统性地定义了LLM智能体端到端安全需要满足的四个完整性属性,为评估和设计防御方案提供了理论框架,有助于社区构建更健壮的智能体安全体系。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)