本文针对 Web Agent 在开放网络环境中面临的提示注入攻击风险,提出了一种鲁棒防御模型 WARD。Web Agent 可通过与网站交互自动完成在线任务,但其依赖的 HTML 内容或视觉界面易被嵌入恶意指令,导致提示注入攻击。现有防护模型存在泛化能力差(对未见领域及攻击模式识别率低)、对良性内容误报率高、引入额外延迟影响部署效率、且难以应对随时间演化的对抗攻击等问题。为解决这些局限,作者构建了 WARD-Base 大规模数据集(包含来自 719 个高流量 URL 和平台的约 17.7 万样本),以及专门针对防护模型本身的提示注入攻击数据集 WARD-PIG。在此基础上,提出 A3T(自适应对抗攻击训练框架),通过基于记忆的攻击者与防护者协同进化过程迭代增强 WARD 的鲁棒性。大量实验表明,WARD 在分布外基准上实现了近乎完美的召回率,同时保持低误报率以保障 Agent 可用性;在遭遇针对防护模型的攻击和自适应攻击时,仍能在显著分布偏移下保持鲁棒;并且可与 Agent 并行运行,不引入额外延迟。该研究为 Web Agent 的安全部署提供了实用且高效的防护方案。
💡 推荐理由: 随着 Web Agent 在自动化任务中广泛应用,提示注入攻击成为严峻威胁。WARD 提出了首个兼顾高检测率、低误报、高效率和抗对抗攻击的防护模型,对保障 LLM 驱动的 Agent 安全至关重要。
🎯 建议动作: 研究跟进