推荐 5.5
Conf: 50%
随着大型语言模型(LLM)被越来越多地集成到浏览、检索、总结网页内容并据此采取行动的系统中,网页已成为模型行为的不可信输入向量。这使网站所有者、贡献者和攻击者能够直接在网页资源中嵌入指令,即间接提示注入。尽管先前的工作在受控环境中展示了此类攻击,但其实际普遍性、部署方式和现实影响仍不清楚。本研究首次对网页和HTTP响应中的间接提示注入进行了大规模实证分析。通过分析来自2480万个主机的12亿个URL,研究团队在1.17万个页面中识别出1.53万个经过验证的实例。这些并非孤立案例:少数重复出现的模板占据了大多数情况。研究对其目标、传递机制、可见性、持久性和影响进行了分类,揭示了一个异构的生态系统,涵盖干扰性提示、声誉操控、内容保护指令和AI机器人检测,目标系统包括爬虫、搜索管道、客服代理和招聘工作流。一个关键发现是大多数指令针对机器而非人类:约70%出现在非渲染的HTML中(如头部、注释、元数据),许多可见案例通过渲染技术隐藏。为评估实际风险,研究在13个模型和四种网页表示上进行了5200次控制实验。结果显示合规性有限但不可忽视,对于较小模型在纯文本输入上合规率可达8%,而结构化表示通过保留结构线索降低了合规性。总体而言,基于提示的干扰已存在于网页生态系统中,并成为LLM驱动自动化与其消费网站之间日益紧张的源头。
💡 推荐理由: 真实网络环境中已存在大量间接提示注入实例,威胁LLM驱动的自动化系统,安全团队需重新评估对网页内容的信任模型。
🎯 建议动作: 研究跟进,将间接提示注入纳入威胁建模,评估内部系统对网页内容的处理方式。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)