推荐 5.5
Conf: 50%
本文是一篇关于大型语言模型(LLM)智能体安全性的全面综述,共整合了247篇相关论文。论文指出,LLM智能体正从对话界面快速演变为能够规划、调用工具、维护记忆并在外部环境中行动的软件组件,这一转变从根本上改变了安全风险的性质。在智能体场景中,失败不再局限于不安全的文本生成:未受信任的内容可能重定向控制流、滥用工具权限、破坏持久状态、泄露敏感信息或触发有害的外部操作。当前研究虽然增长迅速,但分散在攻击家族、防御层、应用领域和评估设置中。本文提出了一种基于生命周期、面向系统的框架,围绕信息流、委托权限和持久状态的交互来建模智能体安全。论文围绕四个问题组织文献:LLM智能体安全应如何建模;哪些威胁面和攻击家族占主导;提出了哪些防御措施以及它们的权衡;如何评估安全声明。研究发现,提示注入和工具中介的控制流劫持仍然主导该领域,而持久状态破坏和多智能体传播正成为新兴核心关注点。此外,当前防御提供了有用的构建块,但组合性较弱;现有基准仍低估了长期、有状态和部署敏感的风险。论文主张,安全的LLM智能体需要明确的信任边界、有原则的权限控制、感知来源的状态管理以及与真实运营环境一致的评估实践。
💡 推荐理由: LLM智能体正被广泛应用于自动化任务,其安全漏洞可能导致严重后果。本文系统梳理了威胁面、攻击与防御,为安全从业者提供了全局视角,有助于理解并防范新兴风险。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)