随着自主AI智能体从对话式交互转向任务执行,安全威胁也从文本欺骗升级为系统破坏。现有安全评估工作面临三大瓶颈:风险覆盖碎片化(缺乏系统性分类)、执行环境静态或低保真(无法模拟真实多步交互)、评估指标单一粗粒度(仅考虑最终结果忽略过程安全)。为解决这些问题,本文提出AgentCanary——一个针对自主AI智能体的全面安全评估框架。其核心贡献包括三方面:首先,提出正交的“入口×影响”风险分类法,将对抗性影响的注入途径与最终危害解耦,并实例化为覆盖真实部署流程的场景化任务套件;其次,构建高保真真实可执行环境,智能体与真实工具交互,动态生成任务工件,支持多步操作的持久状态,从而自然适配长期攻击评估;最后,实现基于完整轨迹的多维度评估,从结果安全、安全意识和任务效用三个正交维度对智能体行为进行分解评分。作者在多个前沿大语言模型(如GPT-4、Claude等)上,针对三种智能体框架(如AutoGPT、LangChain等)和多种攻击方法(如提示注入、工具劫持、状态污染等)进行了系统实验。结果发现,当前智能体普遍无法识别所面临的攻击,尤其是在技能被篡改、持久状态污染和长时域执行攻击场景下表现脆弱。该工作为构建更可靠和安全的智能体系统提供了系统化的基准评估。
💡 推荐理由: 随着AI智能体被赋予真实工具和执行权限,其安全评估成为蓝队必须关注的领域。AgentCanary提供了首个兼顾风险分类、高保真环境和多维度轨迹评估的框架,帮助安全团队系统性地发现智能体在复杂任务中的脆弱性,特别是在长期执行和状态持久化场景下的隐蔽攻击。
🎯 建议动作: 研究跟进