#prompt injection 主题 - Cyber Security Daily Radar

👥 作者: Soheil Khodayari, Xuenan Zhang, Bhupendra Acharya, Giancarlo Pellegrino

随着大型语言模型（LLM）被越来越多地集成到浏览、检索、总结网页内容并据此采取行动的系统中，网页已成为模型行为的不可信输入向量。这使网站所有者、贡献者和攻击者能够直接在网页资源中嵌入指令，即间接提示注入。尽管先前的工作在受控环境中展示了此类攻击，但其实际普遍性、部署方式和现实影响仍不清楚。本研究首次对网页和HTTP响应中的间接提示注入进行了大规模实证分析。通过分析来自2480万个主机的12亿个URL，研究团队在1.17万个页面中识别出1.53万个经过验证的实例。这些并非孤立案例：少数重复出现的模板占据了大多数情况。研究对其目标、传递机制、可见性、持久性和影响进行了分类，揭示了一个异构的生态系统，涵盖干扰性提示、声誉操控、内容保护指令和AI机器人检测，目标系统包括爬虫、搜索管道、客服代理和招聘工作流。一个关键发现是大多数指令针对机器而非人类：约70%出现在非渲染的HTML中（如头部、注释、元数据），许多可见案例通过渲染技术隐藏。为评估实际风险，研究在13个模型和四种网页表示上进行了5200次控制实验。结果显示合规性有限但不可忽视，对于较小模型在纯文本输入上合规率可达8%，而结构化表示通过保留结构线索降低了合规性。总体而言，基于提示的干扰已存在于网页生态系统中，并成为LLM驱动自动化与其消费网站之间日益紧张的源头。

💡 推荐理由: 真实网络环境中已存在大量间接提示注入实例，威胁LLM驱动的自动化系统，安全团队需重新评估对网页内容的信任模型。

🎯 建议动作: 研究跟进，将间接提示注入纳入威胁建模，评估内部系统对网页内容的处理方式。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#prompt injection

Indirect Prompt Injection in the Wild: An Empirical Study of Prevalence, Techniques, and Objectives