#web-agent 主题 - Cyber Security Daily Radar

👥 作者: Corban Villa, Alp Eren Ozdarendeli, Sijun Tan, Raluca Ada Popa

本文提出 Prismata，一种针对自主 Web 智能体（web agent）的跨站提示注入攻击的防御框架。背景：自主 Web 智能体旨在自动化日常浏览任务，但继承了 Web 最古老的攻击面之一——跨站脚本攻击（XSS）表明混合可信与不可信内容是危险的。智能体通过将自然语言解释为指令，重新引入此风险，使得第三方和用户生成的内容可通过提示注入劫持智能体。核心挑战：推导任务特定的安全策略需要对页面结构进行推理，而页面结构与攻击者内容纠缠在一起。Prismata 的防御思路是实施上下文最小权限原则，同时约束智能体看到的内容和能执行的操作。其动态信任推导机制为页面内容生成权限标签，并基于经典完整性模型提供结构化限制保证，确保标签只能降低权限且错误标记有界。机械限制机制通过删除内容和限制智能体能力来强制执行这些标签。重要的是，这些机制无需开发者标注，因此 Prismata 支持长尾网站。实验评估使用近期公开发布的 Web 智能体攻击（包括自适应变种）进行，结果表明 Prismata 显著降低攻击成功率，同时保持良性任务效用。本文适合安全研究人员、自主智能体开发者以及关注大模型安全的应用工程师阅读。

💡 推荐理由: 随着 LLM 驱动的自主智能体在浏览器中执行任务，跨站提示注入成为新兴且严峻的安全威胁。Prismata 提供了一种无需手动标注、可推广的防御方案，能显著降低攻击成功率，对保护未来自动化浏览安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Iliana Fayolle, Sihem Bouhenniche, Samuel Pélissier, Pierre Laperdrix, Clémentine Maurice, Walter Rudametkin

本文研究LLM驱动的Web Agent（基于大语言模型的自动化浏览器代理）的检测问题。自2023年以来，这类新型机器人能够自动化复杂网络任务，超越传统Selenium等工具，通过模仿人类行为甚至绕过多重反机器人机制。然而，网站管理员难以区分这些Agent与真实用户。论文通过部署多个伪装网站（honeysites），并集成网络层、HTTP层和浏览器层的多级指纹技术，对六种LLM-based Web Agent进行测试。主要发现：(1) 部分Agent能绕过所有评估的反制机制（如robots.txt、CAPTCHA、工作量证明、Cloudflare等）；(2) 所有Agent均可在网络、HTTP和浏览器层面被区分，不仅可与人类区分，彼此间也能指纹识别；(3) 隐身和反检测策略反而增加了可检测性。研究揭示了当前反机器人机制的局限性，并为检测LLM驱动Agent提供了新方法。

💡 推荐理由: LLM-based Web Agent日益泛滥且隐蔽性极强，传统反机器人机制失效。本文提出的多层指纹检测方法可有效识别这些Agent，对防御者提升网络资源保护能力具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yv Zhang, Hao Sun, Hao Fang, Kuofeng Gao, Fan Mo, Bin Chen, Shu-Tao Xia, Yaowei Wang

本文研究了多模态Web智能体（Web Agent）中外部记忆组件（External Memory）的安全漏洞。现代Web智能体通常依赖外部记忆来存储长期经验，通过检索历史记录实现长程推理。然而，这种架构引入了一个关键风险：恶意内容若被注入记忆，可能在后续交互中被持续召回并反复影响智能体行为。作者系统性地识别并研究了多模态记忆投毒（Multimodal Memory Poisoning）这一此前被忽视的攻击面，并提出了一个统一的黑盒攻击框架MemVenom。该框架针对图结构的外部记忆，利用文本-图像协同证据进行投毒。其设计包含两个阶段：第一阶段是触发器条件检索攻击（Trigger-conditioned Retrieval Attack），确保恶意记忆以高概率被召回；第二阶段是检索后诱导攻击（Post-retrieval Attack Induction），通过对抗性扰动和隐蔽OCR注入覆盖用户原始目标。与以往基于提示或纯文本记忆的攻击不同，MemVenom无需修改模型参数或重新优化恶意任务，即可实现持久、可复用且目标无关的攻击。在多种Web智能体框架和视觉语言模型上的实验表明，MemVenom在GPT-5系列Web智能体上达到最高99.15%的成功率，且对良性性能影响极小，并在不同架构和模型规模间具有良好的迁移性。

💡 推荐理由: 首次系统性地揭示了多模态Web智能体外部记忆组件中的投毒攻击面，对依赖记忆的AI系统安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Julien Piet, Annabella Chow, Yiwei Hou, Muxi Lyu, Sylvie Venuto, Jinhao Zhu, Raluca Ada Popa, David Wagner

该论文针对当前大语言模型（LLM）智能体的主流架构——ReAct范式提出了根本性质疑。ReAct让智能体在每一步观察网页内容后决定下一步动作，这使得来自卖家、客户、广告商等不同来源的网页内容直接流入模型，为提示注入攻击提供了直接路径。作者提出Web智能体应采用“计划-执行”（plan-then-execute）范式：在观察网页运行时内容之前，先承诺一个任务特定的程序（即预定义的控制流和数据流），然后严格按程序执行。这样一来，不可信的网页数据只能影响预定义图中的特定值或分支，而无法重定义用户任务或让模型在运行时合成新动作，从而从架构层面阻断提示注入。论文在WebArena基准上分析发现，所有任务都与计划-执行兼容，其中80%的任务可以仅通过纯程序化计划完成，无需运行时调用LLM子程序。然而，该范式的落地面临基础设施挑战：浏览器底层工具（如click、type、scroll）的语义依赖当前页面状态，导致规划时信息不全。为此，作者呼吁构建类型化的网站接口（typed interfaces），将交互从点击、键盘操作提升为任务级操作（如“添加到购物车”），使智能体在规划时就能预知动作效果。论文的核心贡献是指出安全问题源自架构选择，而非模型能力，并指明了未来的基础设施改进方向。适合安全研究人员、LLM智能体开发者、浏览器自动化工具设计者阅读。

💡 推荐理由: 该论文直击LLM智能体面临的核心安全威胁——提示注入，提出从架构层面彻底消除攻击面的方案，为安全从业者设计更安全的Web智能体提供了理论依据和工程方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#web-agent

Prismata: Confining Cross-Site Prompt Injection in Web Agents

On the Internet, Nobody Knows You're an LLM Bot: Unmasking Web Agents with Multi-Layer Fingerprinting

MemVenom: Triggered Poisoning of Multimodal Memories in Web Agents

Web Agents Should Adopt the Plan-Then-Execute Paradigm