#prompt-injection

共收录 56 条相关安全情报。

← 返回所有主题
👥 作者: Dewank Pant, Shruti Lohani, Avijit Kumar

该论文研究了大型语言模型(LLM)集成应用中 prompt injection 攻击的根本原因。作者证明,在共享嵌入架构中,如果缺乏强制性的控制与数据分离,完美防御 prompt injection 在数学上是不可能的。论文形式化定义了“提示动作模型”(Prompted Action Models),其输出包括控制性动作(如拒绝决策、工具授权、策略路由和内存写入),并提出了“语义忠实控制”(Semantic-Faithful Control, SFC)属性,即控制行为仅依赖于不可信输入的含义,而非其编码方式。通过三项理论结果证明 SFC 不可实现:源恢复不可能性(共享表示使得可信与不可信内容在统计上不可分离,受限于总变差距离)、控制路径暴露(不可信令牌通过相同的注意力值聚合进入控制相关计算)以及有限覆盖不变性间隙(有限训练无法在无限语义等价类上认证不变性)。这些结论在真实分词器和模型上通过测量得到了验证。作者指出,这一结果是结构性的,而非当前防御的漏洞,类似于冯·诺依曼架构中代码与数据混淆导致的缓冲区溢出问题——后者花费数十年才通过分层防御(DEP、W⊕X、ASLR、栈金丝雀、内存安全语言)得以控制。因此,prompt injection 不能仅通过更好的管道内分类或对齐来消除,而需要指令与数据通道的架构级分离。该论文适用于从事 LLM 安全、架构设计和对抗性机器学习的研究人员。

💡 推荐理由: 从理论层面揭示了 prompt injection 无法被彻底防御的根本原因,为 LLM 安全提供了新的认知框架,并指明了架构级分离的必要方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Praneeth Narisetty, Shiva Nagendra Babu Kore, Uday Kumar Reddy Kattamanchi, Jayaram Kumarapu

该论文聚焦于LLM Agent(大语言模型驱动的智能体)在面对间接提示注入攻击时的防御策略。近期(2024-2026)的研究趋势是从训练模型拒绝恶意指令转向在模型之外通过确定性策略实施安全防御,即带外防御(out-of-band defense)。典型系统包括CaMeL、FIDES、Progent、RTBAS和FORGE,这些系统利用能力、信息流标签和参考监视器实现安全机制,并在AgentDojo基准测试中报告几乎消除了攻击。本文首先将这些带外防御整理为经典完整性保护(Biba模型)、参考监视器和最小权限原则的实例,从而结构化比较其覆盖范围与未覆盖之处。其次,作者指出所有这些防御仅在静态基准测试(固定注入尝试集)上验证,而正是同一方法论曾使得带内防御看起来强大,直到自适应、防御感知的攻击以超过90%的成功率突破了其中12种。因此,作者定义了自适应评估所需的威胁模型和协议。随后,他们独立复现并扩展了Progent自身的自适应攻击分析,在AgentDojo上使用自托管于单块H200 GPU上的开源Agent(Qwen2.5-7B)进行实验(该设置未被原始Progent作者测试)。三次运行平均结果显示,Progent防御将平均攻击成功率从25.8%降低至4.2%(约降低六倍),而手工制作的自适应攻击并未使其上升(2.6%)。然而,这仅是在弱模型上使用单一黑盒攻击模板的小规模数据点;更强的优化(白盒GCG)攻击仍有待探索。该结果与“确定性带外强制措施对自适应攻击者而言比带内检测更难攻破”的假设一致,但尚未确立该结论。论文对LLM Agent安全研究人员、防御设计者和评估者具有参考价值。

💡 推荐理由: 本文首次系统地对LLM Agent的带外防御进行结构化分析,并指出其验证方法论的缺陷(仅依赖静态基准),同时通过自适应攻击评估提供了初步实证,对设计更鲁棒的Agent安全防御具有启示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Md Anas Biswas

本文研究提示注入检测器在攻击分布迁移场景下的置信度校准问题。当前检测器通常将模型对输入的打分与固定阈值比较,决定是否拦截。然而,实际攻击分布(如间接注入、越狱变体)可能偏离模型训练或调优时使用的干净基准分布,导致检测器在未知攻击上表现不稳定。作者以三种公开检测器(ProtectAI-v2 和两种 Prompt-Guard-2 检查点)为研究对象,在单一源校准阈值下,将其迁移至五种攻击分布偏移场景,并引入严重性度量 S(表示检测器对漏报攻击的置信度水平)。实验发现:在所有偏移和所有检测器上,漏报攻击的 S 值始终介于 0.99 到 1.00 之间,而假阴性率从 0.01 到 0.97 不等——即检测器一旦漏报,几乎以绝对自信忽略攻击。特别地,三种检测器一致对间接行为劫持注入(促使模型执行恶意操作的类型)表现出盲点。标准池化校准误差无法捕捉该现象:一个被认为校准良好(0.06)的检测器,在仅考虑攻击时校准误差高达 0.91。在实际模型测试中,漏报的注入会泄露大部分可工作漏洞,拦截率与其他攻击相同。作者通过受控实验追溯原因,发现是检测器过度依赖内容关键词而非注入结构,且指令微调模型作为裁判时表现出相同盲点。黑盒重写器利用内容键控机制可制造高置信度的漏报,尤其对最危险的攻击类别效果显著。代码和数据已公开。本文为 LLM 安全评估提供了新视角,强调校准质量不能仅靠平均误差衡量,必须针对攻击子集单独评估。

💡 推荐理由: 提示注入是 LLM 应用的核心威胁,而现有检测器在攻击分布迁移时可能以极高自信漏报关键攻击,标准校准指标无法反映该风险。安全团队需重新审视检测器的置信度可靠性,特别关注间接注入盲点。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Reshabh K. Sharma, Vinayak Gupta, Dan Grossman

本文针对多模态大语言模型(MLLM)面临的基于图像的提示注入攻击问题,提出了一种新型防御机制。随着人类通过图像与文本组合与聊天机器人交互的应用呈指数级增长,MLLM能够处理多种数据形式并理解用户意图,但针对提示注入攻击的防御研究相对不足,现有语言模型防御机制主要局限于文本数据。为此,作者设计了一个两阶段防御框架:第一阶段是输入验证,在到达聊天机器人之前识别不安全输入;第二阶段是提示注入检测,保护MLLM后端免受恶意图像攻击。该框架利用领域特定编程语言,为聊天机器人和图像输入定义用户指定的安全规范。在GPT-4VISION和LLAVA等模型上的实验表明,依赖模型自身鲁棒性存在局限性,而该框架能有效提升恶意攻击检测能力。核心贡献包括:首次系统性地研究针对MLLM的图像提示注入防御,提出结合输入验证与注入检测的两阶段方法,以及通过领域特定语言实现可定制的安全策略。适合关注AI安全、多模态模型防御的研究人员和工程团队阅读。

💡 推荐理由: 多模态大模型在应用中易受图像提示注入攻击,现有防御仅针对文本,本文填补了这一空白,提供了实用的两阶段防御框架。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan

该论文针对检索增强生成(RAG)聊天机器人面临的提示注入攻击,特别是间接注入(通过污染知识库文档实现攻击),提出了一种三层防御框架。第一层(输入过滤层)使用基于规则的模式库和微调的语义异常分类器对用户输入进行筛查。第二层(上下文组装层)在执行上下文组装时,强制实施基于来源的指令层次结构,防止检索到的内容覆盖操作策略。第三层(输出审计层)在模型输出前,使用策略规则引擎和语义漂移检测器进行审核。此外,框架包含一个持续审计循环,聚合结构化日志并支持重新训练以适应新型攻击模式。该框架是模型无关的,作为中间件部署,无需修改底层LLM。在包含5,080个样本的测试集上,使用GPT-4o、Llama 3和Mistral 7B评估,攻击成功率(ASR)从71.4%降至11.3%,性能优于最佳单层基线27.3个百分点,优于已公开的护栏系统23.8个百分点,误报率仅4.8%,中位延迟开销61.2毫秒。消融实验证实三层提供互补保护,且组合效果超过各自贡献之和。

💡 推荐理由: 提示注入是LLM应用中最关键的漏洞(OWASP Top-1),而现有防御仅在单一阶段孤立防护。该论文提出了首个覆盖推理全管线的三层防御框架,有效降低了攻击成功率,为RAG系统的实际部署提供了可落地的安全方案。

🎯 建议动作: 建议内部评估该框架在自有RAG系统上的适用性,并参考其分层思想加固现有防御。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 5.5
Conf: 50%
👥 作者: Zunchen Huang, Songgaojun Deng

该论文关注于将形式化工具(如SAT和SMT求解器)集成到语言模型推理流程中所产生的“叙述差距”问题。在安全或安全关键场景中,问题可被形式化为逻辑公式,求解器提供可验证的正确答案,但最终用户看到的是由LLM将求解器输出转化为自然语言叙述的结果。论文首先将LLM-求解器循环建模为一个可验证的决策过程,并指出叙述阶段是安全漏洞的潜在来源。通过对五种开源模型在提示注入攻击下的评估,发现证书门控(certificate gating)可以确保求解器的判断是稳健的,但攻击者可以通过不同措辞和渠道反转已验证的结论。论文研究了通过硬化提示(hardened prompt)来缓解攻击的方法,发现其能显著降低注入成功率,但无法完全消除,且在自适应攻击下仍然脆弱。结合形式化分析和实证研究,论文揭示了在LLM-求解器循环中,用户最终读到的答案并不具备鲁棒性。该研究为构建更可靠的混合推理系统提供了理论依据和实证参考,适合安全研究人员、LLM应用开发者以及形式化方法从业者阅读。

💡 推荐理由: 揭示了LLM与形式化工具集成流程中一个被忽视的安全漏洞:即使求解器输出正确,LLM在叙述阶段可能因提示注入而篡改最终答案,导致决策不可靠。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文提出 CodeSentinel,一种针对代码大语言模型(Code LLM)中间接提示注入攻击的三层推理时防御系统。研究背景:代码大语言模型在编程辅助中常从外部仓库、文档、问题线程和编码智能体环境检索代码上下文,攻击者可利用此过程在注释、字符串、标识符或诱饵代码中隐藏恶意指令,实现间接提示注入。核心问题:现有防御方法如输入过滤、输出检测或整体提示净化,难以同时兼顾准确性和低开销。方法:CodeSentinel 通过三层架构进行实时净化。第一层利用 Tree-sitter 解析代码的 Concret e Syntax Tree (CST),提取高风险节点(如字符串、注释等可能携带注入的节点)。第二层包括语法引导预过滤(移除明显无关节点)和 CST 引导动态 Min-K% 评分(利用语言模型对节点的困惑度差异识别异常)。第三层进行节点扰动分析,通过轻微修改节点并观察模型输出变化来确认攻击触发器。检测到的恶意节点被移除或中和后,再将纯净代码送入下游 Code LLM。实验:在六个最新攻击家族(包括对抗性和自然语言样式)上评估,CodeSentinel 实现平均节点级 F1 得分为 0.80,显著优于现有工具 CodeGarrison、DePA 和 KillBadCode。主要贡献:首次针对代码上下文的间接提示注入提出结构化防御,集成多种检测技术,具备高准确率和较低计算开销。适合读者:安全研究人员、开发安全工程师、LLM 应用开发者。

💡 推荐理由: 代码大语言模型在编程场景中广泛应用,间接提示注入可导致模型执行恶意代码或泄露敏感信息。CodeSentinel 提供了一种实用的实时防御方案,能有效净化代码上下文,降低攻击风险,对保障基于LLM的编码助手的供应链安全具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Aaditya Pai

该论文系统评估了基于提示的防御机制对领域伪装注入攻击的效果。领域伪装注入攻击是一种利用领域特定词汇将恶意指令嵌入检索内容中,从而绕过依赖语法注入标记的标准检测器的攻击方式。研究者在三个模型家族(Claude Haiku、Llama 3.1 8B、Gemini 2.0 Flash)和三个部署领域(金融、法律、通用)上,通过3510次试验测试了五种提示防御策略:突出显示、释义、提示夹层以及两种组合。结果表明,在智能体处理前对检索内容进行释义是最一致有效的防御,根据模型不同,可将伪装攻击成功率降低55-84%,且在所有测试模型上均优于Llama Guard 4配置。防御效果高度依赖模型:突出显示在Claude Haiku上能将攻击成功率减半,但在Llama 3.1 8B上无益。金融领域部署面临最高残余风险,基线攻击成功率为26-33%,且对于较弱模型,没有任何基于提示的防御能完全消除威胁。该研究首次系统评估了专门针对伪装类注入攻击的提示防御,为实践者提供了基于基准的推荐。所有任务均使用合成构建的专业文档,这些基准排名是否适用于真实企业文档仍有待验证。

💡 推荐理由: 为大语言模型应用中的注入攻击防御提供了首个系统基准,揭示了模型依赖性和领域风险差异,帮助安全从业者选择有效的提示防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mohammadreza Rashidi

本文研究了Handlebars模板引擎在LLM提示构造中的安全风险,特别是三括号插值({{{x}}})与双括号插值({{x}})对结构角色注入攻击的影响。Handlebars是Microsoft Semantic Kernel默认的提示模板格式,双括号插值会对HTML进行转义,被视为安全默认值;而三括号插值则直接插入原始值。作者通过无模型分析揭示了机制:Handlebars转义会重写尖括号,但保留方括号、冒号和Markdown哈希标记,因此能中和ChatML、Llama-3和XML角色分隔符(存活率0.00),但保留Llama-2 [INST]、遗留的Human:/Assistant:和Markdown ###分隔符(后两者存活率1.00)。随后,作者在七个分隔符家族、两种攻击目标(任务劫持和秘密窃取)和四个模型(GPT-3.5 Turbo、GPT-4o mini、GPT-4.1 mini、Claude Haiku 4.5)上进行了5760次试验,总API成本仅1.63美元。结果显示,GPT-3.5 Turbo在原始和转义试验中分别有97%和91%的概率遵循任务劫持指令,转义保护仅集中在尖括号家族,对冒号和Markdown家族无效;更困难的秘密窃取目标更清晰地暴露了相同的家族交互。Claude Haiku 4.5几乎完全抵抗两种目标。结论是:默认转义仅保护HTML转义恰好覆盖的分隔符方案,对其他方案无保护,无法替代指令与数据的结构分离。该研究揭示了LLM提示工程中的一个系统性安全缺陷,对使用Handlebars或类似模板引擎的AI应用开发者具有重要警示意义。

💡 推荐理由: 揭示了Handlebars模板引擎默认转义的安全假象,仅针对特定分隔符有效,导致LLM应用面临结构角色注入风险,尤其是使用三括号插值时。

🎯 建议动作: 研究跟进:评估自身LLM应用是否使用Handlebars模板,验证当前转义策略是否能覆盖所用分隔符,考虑升级为结构化提示方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Aaditya Pai

本文针对基于大语言模型(LLM)的智能代理在真实企业文档场景下面临的提示注入攻击防御问题展开研究。现有防御方法主要依赖合成基准测试进行评估,但在实际企业文档(如SEC文件、联邦公报规则、PubMed摘要、arXiv论文和GitHub事后分析报告)上表现不佳。这些文档通常更长、更密集,且将合法权威语言与事实内容交织在一起,使得传统防御难以泛化。作者构建了一个跨金融、法律、医学、科学和DevOps五个专业领域的122个任务的真实文档基准测试,并发现即使是最强的合成基准防御方法(释义)在真实文档上也未显示出统计学显著的攻击成功率降低(p=0.500),同时导致工具效用从91.8%降至82.8%。为此,作者提出了PARSE(Provenance-Aware Retrieval Sanitization),一种领域感知、事实保留的文本清洗流水线。PARSE首先对每个句子进行注入可能性分类,接着在改写前提取结构化事实,并通过一致性检查循环验证事实保留。此外,一个引导门将59%的真实企业文档路由到轻量级处理路径,从而将计算成本集中在高风险文档上。实验结果显示,PARSE的攻击成功率为15.6%,比基线25.4%降低了38%,且保持86.9%的效用,这是唯一兼具统计学显著性(p=0.014,统计功效充足)且维持接近基线效用的防御条件。研究建议从业者在领域匹配的真实文档上评估防御,而非依赖合成代理。

💡 推荐理由: 揭示了当前提示注入防御在真实企业文档场景下的严重失效问题,并提供了首个跨领域真实文档基准和一种兼顾安全性与可用性的实用防御方案,对LLM智能代理在专业领域的实际部署具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lipeng He, Yihan Wang, Jiawen Zhang, N. Asokan

本文针对LLM智能体面临的间接提示注入攻击(攻击者通过第三方数据嵌入恶意指令)提出了一种新的防御方法RETA。现有防御方法在静态基准测试中近乎零攻击成功率,但在自适应攻击评估中性能大幅下降。作者分析指出两大失效原因:一是现有防御仅识别特定攻击模式,而非判断指令意图是否与用户任务相关;二是基于训练的防御方法其对抗样本仅来自少量手工模板,导致泛化能力差。RETA方法将防御决策建立在用户任务之上,而非攻击者的数据。在每个工具输出步骤,防御者通过链式思维推理验证其行为是否与用户任务一致。通过红队模拟,攻击者合成对抗训练数据,并利用字典学习多样性奖励覆盖广泛的注入变体策略。最后通过多目标强化学习优化防御者,实现更好的安全-效用平衡。在6种黑盒自适应攻击下,RETA将每个攻击的攻击成功率(ASR)控制在10%以下,平均ASR分别为2.92%和3.75%,同时保持攻击下和干净输入下的高效用。本文适合LLM安全研究者、智能体系统开发者以及关注提示注入防御的安全工程师阅读。

💡 推荐理由: 提示注入是LLM智能体面临的核心威胁,现有防御在自适应攻击下全面失效。RETA提出基于任务对齐的方法,首次在自适应评估中保持低至3%的攻击成功率,为实际防御部署提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei Zhang

大型语言模型驱动的Web代理(Web Agent)正越来越多地被部署在真实环境中,它们需要处理不可信的网页内容并执行具有直接后果的操作,因此容易受到提示注入攻击——看似良性的内容中嵌入对抗性指令以操纵代理行为。现有的安全基准采用“攻击中心”视角,仅关注注入的技术可行性,而忽略了危害在不同利益相关者之间的不对称分布。实际上,同一次攻击可能对用户、卖家、平台等不同实体产生截然不同的后果,且同一攻击模式对不同目标的有效性也可能显著不同。为捕捉这些特性,本文提出**SBC**(Stakeholder-Centric Benchmark),一个以利益相关者为中心的基准,系统性地对真实Web代理系统中的危害进行分类和归因。SBC区分受影响的实体(如用户、卖家、平台),将攻击分解为具体目标(如信息窃取、任务劫持、信誉损害等),并采用互补的结果级和过程级度量进行评估。实验结果显示,当前的主流代理无法可靠地抵御任何单一攻击目标,且失败模式呈现多样化的定性差异:包括“隐蔽寄生”(攻击成功但不干扰用户委托任务)、“错位干扰”(任务被中断但攻击未成功)和“复合失败”(对抗目标与任务完整性同时被违反)。这些模式在传统评估中被完全忽略。本文的工作强调了在真实部署中采用利益相关者感知评估的必要性,为LLM基代理的安全性研究提供了新的视角和工具。该基准已开源(https://github.com/StakeBench/SBC)。

💡 推荐理由: 该研究揭示了提示注入攻击对Web代理不同利益相关者的影响差异,提供了一个结构化的危害归因框架。安全从业者可借此评估自身系统在复杂多角色场景下的真实风险,避免传统单维度评估的盲区,从而设计更有针对性的防御策略。

🎯 建议动作: 研究跟进:阅读论文并下载基准框架,评估自身Web代理系统在用户、卖家、平台等不同视角下的提示注入脆弱性,重点关注隐蔽寄生和错位干扰等非传统失败模式。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Pengfei He, Lesly Miculicich, Vishesh Sharma, Ash Fox, George Lee, Jiliang Tang, Tomas Pfister, Long T. Le

随着大型语言模型(LLM)从单纯的文本生成器迅速演变为能够与外部工具和环境交互的智能体系统,新的安全风险也随之出现,其中最具威胁的是间接提示注入攻击——攻击者通过不可信的外部数据源(如网页、数据库、API响应)向LLM agent注入恶意指令,使其执行非预期行为。现有的防御方案主要集中在推理时阻断恶意内容,而现有的红队测试方法又主要优化攻击成功率,导致开发者无法清晰了解潜在的注入漏洞如何在agent内部传播与触发。针对这一空白,本文提出PI-Hunter,一种自动化的agent审计框架,用于主动暴露LLM agent中的漏洞。PI-Hunter的核心思想是构建“源感知”测试用例——即测试用例不仅包含恶意指令,还模拟了攻击来源的可信度、上下文位置等真实场景属性。随后,通过反馈驱动的探索机制(类似于进化算法或强化学习),PI-Hunter迭代演化这些测试用例,以最大化诱导agent检索并执行外部环境中嵌入的恶意指令的概率。该框架不仅能发现是否存在注入漏洞,还能定位漏洞触发的具体环节(如哪个外部源、哪条工具调用链)。在多个基准测试(包括不同的agent架构、攻击类型和防御措施)上的实验表明,PI-Hunter在漏洞暴露率和攻击面覆盖率上显著超越了现有的自动化红队基线方法,并且在面对现有提示注入防御(如输入过滤、指令隔离)时仍然保持了有效性。此外,PI-Hunter还提供了可解释的审计报告,帮助开发者理解漏洞根源。本文的主要贡献包括:(1)提出了首个面向LLM agent的自动化漏洞暴露与定位框架;(2)设计了源感知测试用例生成与反馈驱动进化方法;(3)在多种场景下验证了框架的有效性与鲁棒性。该工作适合安全研究员、LLM应用开发者和AI安全工程师阅读。

💡 推荐理由: LLM agent面临严重的间接提示注入风险,而现有防御和红队方法缺乏系统性的漏洞暴露与定位能力。PI-Hunter提供了一种自动审计手段,能主动发现并精确定位注入漏洞,帮助开发者在实际部署前加固系统,对提升agent安全性具有重要实践价值。

🎯 建议动作: 研究跟进,评估其在自身Agent系统中的应用可行性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Timothy McAllister, Sina Abdidizaji, Ivan Garibay, Ozlem Ozmen Garibay

本文研究基于大语言模型的多智能体系统(MAS)在面临敌对攻击时的鲁棒性问题,特别关注模型规模与系统级安全之间的关系。作者在HumanEval基准上,使用两个开源模型家族(不同参数量)进行实验,评估线性多智能体工作流的安全性。实验发现一种“服从-修正对称性”:在无修正的流水线中,较大模型(如27B参数)更可能忠实地执行恶意指令,导致控制组与恶意组性能差距高达53.7个百分点;然而,添加一个轻量级的终端“修复器”(Fixer)阶段后,该差距骤降至0.6个百分点,并恢复与对照组统计上无差异的性能。这表明,严格的线性协作结构在足够大的模型规模下可以具有鲁棒性,并且先前归因于线性拓扑的脆弱性可能源于缺乏修正机制。论文的核心贡献在于揭示了模型规模对MAS安全性的双刃剑效应,并提出了一个简单有效的修复策略,为构建可扩展且安全的多智能体系统提供了新视角。适合对LLM安全、多智能体系统及对抗鲁棒性感兴趣的研究人员阅读。

💡 推荐理由: 多智能体系统正被部署于实际场景,其安全性至关重要。本研究发现模型规模越大越易被利用,但线性流水线加修复可大幅提升鲁棒性,为安全设计提供了可操作的启示。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: David Hofer, Edoardo Debenedetti, Florian Tramèr

该论文系统评估了针对LLM Agent的自动提示注入攻击方法。在Agentic环境中,LLM Agent会与不可信的外部数据交互,间接提示注入成为关键威胁。然而,在现实Agent场景下,自动攻击方法(如用于越狱的GCG和TAP)尚未被充分探索。作者在AgentDojo框架中,将白盒(GCG)和黑盒(TAP)方法适应到Agent设置,并在四个领域的80个任务对、多种模型上进行评估。实验发现:黑盒优化(TAP)显著优于基于梯度的方法(GCG),性能差距源于GCG在合理计算预算下的优化不稳定性;TAP的有效性依赖于攻击者模型,通用能力和安全微调均影响攻击成功率——更强模型产生更有效注入,而安全微调的攻击者可能拒绝生成对抗性提示;任务通用攻击可有效迁移到未见任务和域外领域,但在小型开源模型上优化的攻击无法迁移到前沿模型(如GPT-5)。这些发现表明自动提示注入是一种可信但模型依赖的威胁,实现模型无关的利用仍存在重大障碍。该研究为LLM Agent安全性的防御者提供了针对性见解。

💡 推荐理由: 首次系统评估自动提示注入攻击在真实Agent设置下的效果,揭示了黑盒攻击的高效性和模型依赖性,对设计Agent安全防护策略具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saeid Jamshidi, Amin Nikanjam, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

本文针对大型语言模型在多轮交互中长期上下文推理的安全性问题展开研究。在多轮对话中,LLM需要维护一个动态演变的上下文,而不仅仅是生成孤立回复,这使得模型容易受到提示注入和上下文投毒攻击——攻击者通过注入局部的看似合理的对抗性片段,逐步扭曲模型的推理轨迹。现有的防御手段主要关注单轮输出过滤,忽视了跨轮上下文的演化,导致长时间跨度的推理暴露在风险中。虽然模型上下文协议(MCP)标准化了上下文交换和工具调用,但它仅作为一个被动的路由层,无法强制执行上下文的稳定性。为此,本文提出了博弈论安全模型上下文协议(GT-MCP),一种控制器驱动的多智能体方法,将上下文管理视为一个闭环动态过程。GT-MCP协调三个异构的LLM智能体,并通过一个信任函数选择输出,该函数联合评估:输出的因果一致性与已验证的上下文图的匹配程度、智能体间的语义一致性,以及随时间的分布漂移。当检测到不稳定性时,一个基于回滚的自我修复机制会恢复已验证的上下文,阻止未受支持的片段传播。在自适应对抗威胁模型下,对500轮交互的实证评估表明:99.6%的轮次中上下文漂移保持有界,仅0.4%的轮次需要恢复;每轮效用高度集中(中位数-0.19,P05=-0.72,P95=0.30),严重退化(低于-1)仅占0.4%;在控制器层面没有注入攻击成功;选定输出的胜率稳定在98%以上;计算开销可预测,每token延迟为1.63e-3秒。

💡 推荐理由: 本文提出了一种新颖的基于博弈论的多智能体控制方法,在LLM长期对话中主动防御上下文投毒和提示注入攻击,填补了现有防御仅针对单轮输出的空白,对部署LLM应用的蓝队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianwei Tai

本文针对脑机接口(BCI)到大型语言模型(LLM)智能体的管道提出了一个新型攻击面:脑提示注入(brain-prompt injection)。该管道将解码的神经活动作为工具使用智能体的授权通道,但攻击者可通过信号侧扰动、上下文仅注入和自适应双解码器攻击来改变路由动作,而EEG侧或文本侧监控器却无法察觉。作者定义了一个“路线安全审计契约”,包含最小日志模式、分母层次结构和端点规范,并证明了审计模式分离定理以及C3攻击依赖分解,表明净一致性和边际稳健性无法识别控制C3路由的联合项。作为校准层,作者将分割共形校准应用于非神谕EEG确认通道,并在明确威胁原型矩阵下报告了假接受前沿。在EEGMMI原生左/右命令控制数据集上,包含5400个事件、无害工具存根和种子/案例分母进行实例化。结果表明:来源块C2路由(0.000)、一致加来源路由C3翻转(1.000)、确认加来源路由C3翻转(0.000)。共形前沿在采集隔离下达到FAR 0.000(清洁效用0.150,α=0.005)和FAR 0.119(清洁效用0.452,α=0.10);攻击者可控制的确认通道将边界破坏至约1。主体簇自举在60名受试者上验证了区间;跨架构(TinyEEGNet、EEGNetV4)和容量扫描结果显示了领域内饱和。作者强调调解和确认可降低风险,但并非意图证书。本文为BCI-LLM智能体系统的安全性提供了理论基础和实用审计框架,适合安全研究人员、BCI系统开发者和LLM智能体安全从业者阅读。

💡 推荐理由: 首次揭示了BCI-LLM智能体管道中的脑提示注入攻击面,证明了传统监控盲区,对新兴的脑机接口驱动智能体系统的安全审计具有奠基性意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hyunseok Paeng

本文揭示了基于检索增强生成(RAG)的大语言模型(LLM)推荐系统中一种可重复的安全训练失效模式,称为“注入悖论”。该现象表现为:嵌入在检索文档中的提示注入(prompt injection)非但没有帮助攻击者提升目标品牌推荐率,反而由于模型的安全训练特性,导致被注入的品牌推荐率显著下降,甚至低于无注入基线。在安全训练的Claude模型(如Claude Opus 4.6)上,即使语料库中该品牌的4个文档仅有1个包含注入,目标品牌的前2推荐率也从54%基线降为0(50次试验全部为零)。这种抑制效应不仅作用于被注入的文档本身,还会扩散至同一品牌的其他未修改文档。作者通过反事实实验和跨三个品牌的测试证实了这一方向性模式。值得注意的是,在GPT模型上观察到相反结果:相同注入反而增加了推荐率,表明不同模型系列对注入上下文的行为存在差异。这些发现提出了一种反向攻击场景的可能性:攻击者可能在竞争对手的文档中嵌入提示注入,利用模型的安全敏感性来抑制竞争对手的品牌。该研究对RAG系统的安全设计、提示注入防御策略以及LLM推荐系统的鲁棒性评估具有重要启示。

💡 推荐理由: 该研究揭示了一种新颖的注入攻击方向:攻击者可利用模型安全训练特性来压低竞争对手品牌推荐率,颠覆了传统上认为注入总是用于提升自身品牌的认知,为蓝队提供了新的对抗视角和防御切入点。

🎯 建议动作: 研究跟进:建议RAG系统开发者复现该现象,并评估自身模型在类似注入下的品牌推荐变化;考虑在检索阶段增加文档来源可信度验证或注入检测。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianguo Zhu

检索增强生成(RAG)系统通常将用户查询、检索文档、元数据、系统标签和任务指令序列化为一个自然语言提示。本研究揭示了一种源权威边界失效模式:攻击者控制的检索文本可以冒充元数据、来源、权威或披露策略信号,这些信号对模型而言呈现为控制相关信息。作者将这种模式称为文档作者控制信号冒充(DACSI)。DACSI是间接提示注入的一个子类,采用非命令式、类元数据的载荷。其核心见解是:文档作者标签是数据,而非策略。命令式注入要求模型忽略、覆盖或违反策略;而DACSI则探索当RAG提示渲染将可信与不可信文本合并到同一自然语言通道时,不可信文档文本是否会被错误地归因为授权控制信号。作者在六种模型设置(DeepSeek V4 Pro、Qwen3.5-397B、DeepSeek V4 Flash、GPT-5.5、Gemini 3.1 Pro Low、GLM-4.7)下,结合不同的提示压力水平、注入基线、信号分类、RAG中介管道、系统控制探测、源权威归属探测以及合成金丝雀格式进行了评估。实验按模型制度解释证据:DeepSeek V4 Pro和Qwen3.5-397B提供了最清晰的正向提升(即易受攻击),DeepSeek V4 Flash是高风险设置,GPT-5.5和Gemini 3.1 Pro Low是强边界探测但仍存在选择性残留风险,GLM-4.7是饱和泄漏边界案例。结果表明,DACSI值得单独评估,因为它利用无命令的元数据/来源/策略表面,沿RAG特定源权威路径进行攻击,并且对源/通道分离有响应。源权威归属探测提供了行为归因证据,而非内部机制证明。该研究适合RAG系统开发者和安全工程师关注,强调了在提示渲染中区分可信与不可信来源的重要性。

💡 推荐理由: DACSI攻击成本低、易实施,利用了RAG系统将用户查询与检索文档混合到单一提示的设计缺陷,可绕过安全边界导致信息泄露或非授权操作。随着RAG在对话系统和企业搜索中的广泛应用,该攻击具有普遍威胁。

🎯 建议动作: 实验验证并评估自身RAG系统对该攻击的鲁棒性,考虑实施源/通道分离防御措施

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jafar Isbarov, Umid Suleymanov, Ilia Shumailov, Murat Kantarcioglu

本文介绍了 GitInject,一个用于评估现实世界中 CI/CD 流水线(特别是 GitHub Actions)中 AI 代理提示注入漏洞的开源框架。随着 AI 代理越来越多地被集成到 CI/CD 流水线中,用于自动审查拉取请求、分类问题和维护代码库,这些代理在处理不受信任内容的同时拥有较高的仓库权限,因此容易受到提示注入攻击,可能导致供应链安全风险。与以往模拟工具调用的代理安全基准不同,GitInject 通过创建临时仓库并触发实际工作流运行,使沙箱约束、凭证处理和权限边界完全模拟生产环境。利用 GitInject,作者测试了四个 AI 提供商的工作流配置,并记录了 11 种攻击类型,涵盖配置文件注入、凭证泄露、判断操纵和可用性攻击。研究发现,所有被测试的提供商在其默认配置下至少容易受到一种攻击类别的攻击,且最关键的结构性漏洞源于 CI/CD 基础设施如何处理凭证和配置文件,而非特定模型的行为。对于每种确认的攻击类别,作者识别了最小成本的工作流级缓解措施,并分析了其覆盖范围和局限性。GitInject 已公开发布,以促进该方向的进一步研究。本文适合对 AI 代理安全、CI/CD 流水线安全以及提示注入攻击感兴趣的读者。

💡 推荐理由: 本文首次系统性地评估了真实 CI/CD 流水线中 AI 代理的提示注入漏洞,揭示了由于基础设施设计缺陷导致的结构性风险,为安全社区提供了实用的评估工具和缓解建议。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mudit Sinha, Sanika Chavan

本文研究了一种针对大语言模型的新型间接提示/内容注入攻击方式。传统的基于文本的防御假设恶意信号在文本视图中可见,但作者发现当恶意负载以结构化浮点参数形式传输,并仅在碎片化遥测中重建时,可以绕过文本检测器。具体来说,攻击者将恶意指令编码为浮点数数组(使用IEEE 754格式),通过结构化输入管道传递给LLM,LLM在解析时重建出原始文本,从而执行注入。作者在三个商业LLM API上进行了14400次攻击试验,测试了最新的双重文本分类器防御(Prompt Guard 2 + TF-IDF集成),发现浮点数组载体在最强防御下仍能达到94.3%的泄露成功率(ASR)。同时,针对微调的roberta-base检测器也观察到类似效果。作者强调,即使模型拒绝执行,下游系统可能对引用的标记做出反应,因此泄露ASR是关键指标。通过2x2消融实验,作者发现数据层存储和重建层碎片化共同作用才能绕过文本视图检测。文中提出了一种简单的xxd检测器和语义验证块可以阻止当前攻击实例,因此本文的贡献不在于提供不可检测的漏洞,而是揭示了在结构化输入管道中仅依赖文本检测的失败边界,尤其是当LLM暴露于重建的辅助通道时。适合安全研究人员、LLM服务提供商以及防御系统设计者阅读。

💡 推荐理由: 本文揭示了一种绕过文本防御的间接提示注入方法,挑战了仅依赖文本检测的安全假设,对结构化输入管道的LLM应用具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Paulo Ricardo Ferreira Neves, Edson Rodrigues da Cruz Filho, Paulo Henrique Eleuterio Falsetti, João Vitor Pavan, Ian Degaspari, Henrique Vieira Laturrague, Patrick Vieira Laturrague, Guilherme Nielsen Dias, Marccello Wilson Perez Berto, Gustavo Voltani Von Atzingen

大型语言模型(LLM)在自然语言处理任务中展现出强大能力,但易受提示注入(PI)和越狱(JB)攻击。此外,现有基准评估可能受到数据污染和部分信息泄露的影响,导致性能估计不可靠。本文提出 GuardNet——一种基于浅层神经网络(BiLSTM)集成(ensemble)的护栏系统,模型参数量约 4700 万。作者假设在对抗场景中,鲁棒性更多依赖于示例覆盖的多样性和阈值校准,而非模型规模。实验结果表明,GuardNet 在盲测 JBB-Behaviors 基准上达到 AUROC=0.747(n=200),在专有基准上(n=50)F1 分数为 0.92,且通过阈值校准和声明部分信息泄露的评估实现。系统在 CPU 上平均延迟约 50 毫秒,适合在成本和基础设施受限的生产环境中部署。尽管与 Mistral-7B 和 Llama-3.1-8B 等大型 LLM 相比,GuardNet 在 F1 和 AUROC 上仍有差距(后者性能更优),但 GuardNet 提供了轻量级、高效的防护方案,为实际部署提供可行选择。

💡 推荐理由: GuardNet 展示了轻量级神经网络集成在对抗提示注入和越狱攻击中的潜力,为资源受限环境下的 LLM 安全防护提供了实际可部署的方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuanbo Xie, Tianyun Liu, Yingjie Zhang, Suchen Liu, Yulin Li, Liya Su, Tingwen Liu

该论文系统性地研究了新兴的跨会话存储提示注入(Cross-Session Stored Prompt Injection)威胁,这是针对现代 Agentic 系统(基于 LLM 的自主代理系统)的一种攻击范式。传统提示注入攻击通常局限于单个会话内部,攻击者通过构造恶意输入诱导 LLM 产生不安全行为。然而,Agentic 系统的核心特性在于其跨会话持久化状态——这些系统通过记忆(memory)、文件系统(filesystem)、工具(tools)以及其他长期存在的上下文工件(contextual artifacts)来维护和演化共享的世界状态。这种设计极大地扩展了提示注入的攻击面,使得一次成功的注入能够持久化地嵌入系统状态中,并在未来多次执行中持续产生影响,类似于 Web 安全中的存储型跨站脚本(Stored XSS)。 论文首先对存储提示注入进行了形式化定义,提出了一种分类法(taxonomy),系统梳理了对抗性内容如何通过不同持久化通道(如记忆、文件、数据库等)在 Agentic 系统中留存并影响跨会话行为。在此基础上,作者开发了一套基准测试(benchmark)和沙箱工具包,用于定量评估不同模型、攻击目标及持久化通道下的攻击成功率。实验结果表明,持久化机制将提示注入从一次性的、模型级的威胁转变为一种长期存在的、系统级的漏洞,攻击者可以远程植入恶意逻辑,在后续会话中静默操控 Agent 的行为,而无需持续交互。 这项工作适合安全研究人员、LLM 应用开发者以及 Agentic 系统架构师阅读,它揭示了持久化状态带来的新安全风险,并提供了评估框架,为后续防御研究奠定了基础。值得注意的是,该论文尚未提出具体防御措施,但深入分析了攻击机制和影响范围,属于前沿威胁分析类研究。

💡 推荐理由: Agentic 系统正快速落地,其跨会话持久化状态带来了全新的攻击面。本文首次系统性地定义并评估了存储提示注入,揭示其从瞬时威胁变为长期系统级风险的转变,对 LLM 安全架构设计具有里程碑式意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hang Li, Fedor Filippov, Yuling Lin, Pengfei He, Kaiqi Yang, Yucheng Chu, Yingqian Cui, Hui Liu, Jiliang Tang

本论文研究基于大语言模型的自动评分(AG)系统中的提示注入攻击。随着LLM在自动评分中的广泛应用,其安全风险日益突出。攻击者可能通过提示注入操纵评分系统,使系统无论答案质量如何都给出高分,严重威胁教育评估的公平性、可靠性和完整性。作者系统性地研究了此类攻击在教育场景中的有效性,并评估了现有防御策略的效果。实验表明,当前基于LLM的自动评分系统仍然高度易受提示注入攻击。该研究旨在提高对这一新兴威胁的认识,并推动未来构建安全、稳健和可信的LLM教育系统。

💡 推荐理由: 提示注入攻击可能破坏基于LLM的自动评分系统的公平性,威胁大规模在线考试和教育评估的可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

该论文针对LLM Agent安全领域,揭示了一种新型的多步Trojan攻击范式。在本地Agent harness(如OpenClaw模拟的工作空间)中,LLM能够读写文件、调用工具并在会话间复用工作空间状态。攻击者可以将恶意prompt注入到文件或工具输出中,Agent自动读取这些隐藏指令并持久化存储,后续执行时触发。这种攻击的隐蔽性在于单一步骤看似无害,但组合后可将不可信文本转化为持久控制令牌(如“SYSTEM OVERRIDE”)。现有防御多孤立检测单一步骤,能阻断显式恶意行为,但无法识别植入后门的写操作。作者构建了ClawTrojan基准,在GPT-5.4上实现95.5%的攻击成功率(ASR),而传统单轮prompt injection攻击的ASR接近0%。为应对该威胁,提出DASGuard防护机制:扫描敏感文件中类似控制令牌的文本,追溯其来源,移除不可信来源的控制内容。DASGuard结合运行时攻击阻断与工作空间净化的提交机制,实现了强大的动态防御。实验表明DASGuard能有效检测并阻断多步Trojan攻击,同时保持较低误报率。该工作对于构建安全可靠的LLM Agent系统具有重要参考价值。

💡 推荐理由: 揭示了LLM Agent中prompt injection可转化为持久后门的新型攻击链,现有逐步检测防御失效,需关注跨步骤的复合威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

本文针对提示注入攻击的防御问题,指出现有检测器存在异质性:每个检测器在不同攻击类型上表现各异,没有单一检测器始终可靠。然而,现有系统仍采用固定单检测器流水线,将每个请求都交给同一个检测器处理,从而暴露于其盲区。作者提出将防御重新定义为检测器分配问题:给定一个异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM法官。为此,他们提出了SCOUT(Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage)框架,通过预测每个检测器在类似历史输入上的样本级可靠性和延迟,实现动态分配决策,并向外暴露一个安全-效用阈值供操作员调节(效用包括良性通过率和墙钟时间)。为了评估该设置,他们构建了SCOUT-450基准,该基准包含了结构复杂、面向代理的注入攻击,这些攻击在旧的提示注入数据集中代表性不足。在SCOUT-450上,与始终启用GPT-4o法官相比,安全导向的工作点将攻击成功率降低46%,总墙钟时间减少40%,而良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准(BIPIA、IPI、IHEval),改进了安全-效用前沿。

💡 推荐理由: 该工作提出了一个新颖的防御范式,通过预测性检测器分配替代固定流水线,显著提升安全性与效率,尤其适用于需要多步骤推理的Agent场景。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Mohammadreza Rashidi

该论文研究了工具调用ReAct智能体(如GPT-4o-mini和Claude Haiku)在面对间接提示注入攻击时的脆弱性。ReAct智能体交替进行链式思考推理和工具调用,广泛应用于日程安排、文件检索等实际任务。其工具观测循环存在攻击面:攻击者可通过控制工具返回值嵌入恶意指令,从而劫持智能体行为。现有基准仅在固定条件下评估攻击成功率(ASR),忽略了三个关键维度:注入位置(注入深度)、Payload的修辞风格(框架)以及智能体允许的轮次数量(轮次上限)。作者针对五个攻击类别设计了20个场景,共进行460次试验,总API成本低于0.36美元。研究1显示,GPT-4o-mini的ASR从深度1的60%衰减至深度4和5的0%(Cramer's V=0.58, p<0.001);在深度1-3内,V=0.47, p=0.0013,表明深度是主导变量。研究2中,Claude Haiku在所有深度均实现0% ASR,归因于其保守的工具调用和指令抵抗能力。研究3发现,框架调节可使深度1的ASR在25%(中性)到75%(人格化)之间变化,但未达到统计显著性(每组N=20)。研究4确认ASR在轮次上限3、5、7下稳定,表明轮次预算不是风险因素。结论指出,仅清理第一个工具观测值即可捕获67%的注入成功。该研究为设计更安全的智能体系统提供了重要见解。

💡 推荐理由: 揭示了ReAct智能体在工具调用深度上的关键脆弱性,为防御者提供了量化风险依据,并指出清洁首个工具响应可有效防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Brian Crawford, Patrick McClure

该论文研究了面向软件逆向工程的多智能体系统在分析二进制可执行文件时面临的提示注入攻击威胁。攻击者可将恶意注入字符串嵌入源代码或编译产物中,当AI代理解析反编译输出时触发异常行为。作者首先展示了如何利用现有反编译器检测被篡改后的可执行文件中的注入字符串,并系统评估了多种检测方法的有效性,包括基于正则表达式、特征签名以及机器学习分类器的方案。随后,论文重点探索了攻击者可能采用的混淆技术,如代码流平坦化、指令替换、字符串加密等,使注入内容更难被静态分析捕获。针对这些混淆手段,作者又提出了相应的防御策略,包括动态污点追踪、语义哈希过滤以及上下文感知的提示清理机制。实验基于一组公开的恶意软件样本和人工构造的对抗样本进行,结果表明:在无混淆场景下,基于上下文的检测器可达到95%以上的召回率;面对中等强度的混淆,综合使用静态与动态检测能将准确率维持在85%左右;而高度混淆的对抗样本仍能绕过部分检测,形成约10-20%的漏报率。论文最终指出,当前技术尚无法完全消除此类攻击风险,但通过多阶段检测与输入规范化,可大幅降低实际运营中的威胁。该工作对将AI代理部署到生产环境的逆向工程平台、安全分析流水线及漏洞挖掘系统具有直接指导意义。

💡 推荐理由: AI代理辅助逆向工程正逐步进入企业端安全运营流程,但提示注入攻击可导致代理给出错误结论甚至执行恶意动作。本文首次系统揭示了该场景下的攻击链与防御基线,为蓝队评估自身AI系统的健壮性提供了具体参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nima Dorzhiev, Peng Liu

本文针对大型语言模型(LLM)智能体面临的提示注入攻击,提出了一种增强的多态提示组装(PPA)防御方法。原始的PPA通过从固定池中随机选择分隔符对来隔离用户输入与系统指令,但存在静态池复用导致的“爆炸半径”漏洞:一旦某个分隔符泄露,可在后续请求中被利用。作者提出动态、按请求生成分隔符的方法,利用基于时间戳、会话标识符和加密随机数的域分隔SHA-256摘要,为每个组装提示生成唯一的(BEGIN, END)金丝雀对,从而将泄露暴露限制在单个请求内。在Llama-3.3-70B-Instruct-Turbo模型上针对16种注入载荷进行评估,并在DeepSeek-V4-Flash模型上进行跨模型验证。针对M1混淆载荷(leet speak加紧迫性),动态模式将攻击成功率(ASR)从0.88降至0.38,实现2.3倍的缓解效果,且95% Wilson置信区间无重叠,具有统计显著性。针对format_breakout_salad攻击,静态模式下的分隔符泄露率(0.467)在动态模式下完全消除(0.000),证实了爆炸半径的减小。该实现无需模型微调,每个请求仅增加2.7微秒的提示组装开销,且向后兼容现有PPA SDK。该研究为LLM智能体安全提供了实用、高效的防御增强方案。

💡 推荐理由: 提示注入攻击是LLM应用的核心威胁,本文提出的动态分隔符生成方法在不牺牲性能的前提下显著降低攻击成功率,并消除静态池复用漏洞,对部署LLM智能体的团队具有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型(LLM)代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面(如工具输出)并报告一个固定的攻击成功率(ASR),但作者指出工具描述(tool descriptions)是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述,攻击者同样可以在此处植入恶意指令。为了验证这一假设,作者保持注入载荷(payload)字节级一致,通过工具输出和工具描述两个表面,在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现,相同的payload在不同模型上的成功率呈现出镜像反转模式:例如,GPT-4.1在工具输出表面具有96%的成功率,但在工具描述表面仅为4%;而Gemini 3 Flash则相反,分别为20%和98%。方差分解显示,攻击表面的独立贡献为0%,而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道,而是模型-表面的配对属性。为此,作者提出了自适应攻击率(Adaptive Attack Rate, AAR),即取所有表面上每个模型-任务的最高成功率,平均比最强固定表面基线高出9.1个百分点。进一步实验发现,标准的提示级防御(如过滤、指令对抗)继承了同样的盲点:它们能将工具输出表面的ASR降至10-18%,但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见,强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设,指出安全评估必须覆盖所有攻击表面(如工具描述),否则将严重低估风险。对于构建LLM代理的团队,这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估,要求安全测试覆盖工具输出和工具描述两个攻击表面;重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Anany Kotawala

本研究揭示了大型基础语言模型在预训练阶段可能无意中记忆了公开的数值基准数据(如金融因子、经济指标、气候数据),导致基于时间截断的评估实际上测量的是模型的记忆能力而非泛化能力。作者提出了 NumLeak 测量框架,该框架结合了对生产环境闭源模型的 API 边界探测(黑盒)和开放因果语言模型的白盒受控验证。实验表明,顶级前沿模型(如 Claude、GPT-4 等)在 Fama-French 市场超额收益等因子上达到 3-seed 池化 Pearson r=0.97-0.99,且五个兄弟因子的波动控制在 25 基点以内;类似的记忆精度也出现在美国失业率、CPI 通胀和 NOAA 温度数据上。然而,当使用最近发布的新数据(holdout)进行测试时,模型解析率骤降至 21-57%,但一旦成功回答,相关性仍保持在约 0.99,这种“拒绝-回忆”不对称性正是记忆通道的典型特征。白盒实验复现了剂量反应关系,并且 logprob 排序能够检测到开放文本生成中遗漏的记忆痕迹,这表明闭源 API 黑盒探测可能会低估该记忆通道的存在。进一步,作者测试了情绪回归任务:Sonnet 模型基于日期预测市场情绪,与真实 Mkt-RF 的相关性为 r=0.74,但在剔除模型自身回忆的数值后,相关性骤降至 r=0.02,证明输出主要由记忆驱动。作为防御,作者提出了一行系统提示指令,在几乎不降低概念和历史查询性能的情况下,阻断了 99.8% 的非自适应单轮后缀攻击。该研究对依赖模型数值输出的金融、经济、气象等应用领域具有重要安全启示,提示开发者和安全团队需重视预训练数据污染带来的记忆泄露风险。

💡 推荐理由: 该研究首次系统量化了大型语言模型对公开数值基准的记忆泄露程度,揭示了评估中隐蔽的漏洞。对安全分析师而言,这意味着模型输出的数值(如金融预测)可能只是训练数据的复述,而非真正的推理能力。攻击者可通过精心设计的 prompt 诱导模型泄露敏感训练数值(如经济指标或内部基准),从而损害基于模型的应用可信度。

🎯 建议动作: 研究跟进,评估自身 LLM 应用对数值记忆泄露的脆弱性,并考虑引入类似的一行系统提示防御,同时对高敏感性数值输出实施额外审查。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mohan Zhang, Yuqi Jia, Zhen Tan, Steven Jiang, Neil Zhenqiang Gong, Tianlong Chen, Dawn Song

本研究首次系统性地测量了大型语言模型(LLM)在实际应用中的提示注入攻击威胁,聚焦于广泛使用的LLM简历筛选系统。研究基于hireEZ公司收集的约20万份真实简历数据,时间跨度数年。作者首先设计了专门针对简历文本的提示注入检测方法,通过在小规模数据集上的人工验证,证明其检测器精度高,且优于现有通用检测器。然后,将检测器应用于全部简历数据集,进行了大规模的测量分析。关键发现包括:约1%的简历包含隐藏的提示注入;此类注入简历的流行程度在过去一至两年内显著增加;超过90%的注入提示不使用显式指令(例如“忽略之前指令”),而是采用隐晦的自然语言操控。这些结果首次提供了LLM实际应用中大规模提示注入攻击的证据,揭示了该威胁在现实世界中的普遍性和增长趋势,为未来理解和缓解此类攻击奠定了基础。该研究对LLM安全研究者、AI应用开发者和安全运营团队具有重要参考价值。

💡 推荐理由: 首次基于真实世界大规模数据证实LLM应用(简历筛选)中提示注入攻击的普遍性(约1%),且攻击手法隐蔽(90%以上无显式指令),威胁正快速上升。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Ruoqi Guo, Yi Liu, Gelei Deng, Yiheng Xiong, Yuekang Li, Ying Zhang, Leo Yu Zhang, Lida Zhao, Ji Jie, Yuxiao Lu

该论文提出了一种针对移动图形用户界面(GUI)代理的新型提示注入攻击方法,命名为MIRAGE(Mobile Injection of Realistic Adversarial GUI Examples)。移动GUI代理通常由视觉-语言模型(VLM)驱动,它们通过分析屏幕像素来感知界面,并基于所见内容选择操作,因此无法可靠地区分受信任的界面元素和用户生成的内容。MIRAGE利用这一弱点,在不修改代理、应用程序或操作系统的情况下,通过将攻击者控制的文本嵌入到普通的用户生成内容区域(如评论区、输入框等),将良性移动截图转化为提示注入样本。管道分为三个阶段:首先,定位器(Localizer)识别截图中的用户可控区域;其次,生成器(Generator)合成上下文相关的对抗性负载,并以应用程序的原生样式渲染到这些区域;最后,审查器(Curator)对生成样本的真实性进行过滤,并在不同应用、区域类型和攻击意图之间保持平衡。一个关键挑战是,注入后的截图必须在视觉上与真实的用户内容难以区分,同时仍能成功诱导代理执行恶意操作。通过在包含10个应用和11种攻击意图的1111个样本基准上测试,所有五种被评估的VLM代理均存在漏洞,攻击成功率在23%至30%之间。此外,与先前最先进的攻击方法相比,MIRAGE生成的截图在人类真实性评估中得分更高(满分为5分,MIRAGE得3.02,先前方法得2.52)。研究还发现,单个样本的真实性与攻击成功率之间不存在相关性,因此仅依靠视觉质量过滤无法可靠地防御此类威胁。该工作揭示了移动GUI代理面临的新型安全风险,并为后续防御研究提供了基础。

💡 推荐理由: 移动GUI代理(如智能助手、自动化测试工具)正快速普及,MIRAGE展示了一种隐蔽的提示注入攻击,威胁代理的可靠性和用户安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Yin, Shuai Wang, Bevan Koopman, Guido Zuccon

该论文重新评估了生成式引擎优化(GEO)中的提示注入攻击在真实检索增强生成(RAG)系统中的有效性。先前的研究表明,通过提示注入可以将目标产品推至LLM推荐列表的顶部,成功率约80%,但假设被攻击的文档始终直接输入生成器,忽略了检索器和重排序器。本研究在更现实的三个阶段管道(检索器→LLM重排序器→LLM生成器)中评估了七种GEO攻击。发现之前的协议严重高估了攻击效果:基于梯度和指令覆盖的攻击在到达生成器之前基本失效,只有基于LLM的提示注入在端到端中仍然有效。进一步分析表明,当前的GEO攻击很容易被检测:一个在小型攻击数据集上微调的轻量级提示注入防护器即可检测所有攻击。论文提供了代码和数据。

💡 推荐理由: 揭示了当前GEO攻击在真实RAG管道中的有效性被高估,并指出了可被轻量级防护器检测的弱点,对RAG系统的安全评估与防护设计具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Akindoyin Akinrele, Shreyank N Gowda

本文针对大型语言模型(LLM)面临的提示注入攻击威胁,提出了一种部署感知的评估框架,用于比较多种检测方法在不同部署条件下的表现。现有检测方法通常在有限设定下评估,未反映真实操作约束。作者构建了多模型、多场景的实验框架,涵盖词法、语义、结构以及基于Transformer的检测器,并在多种分布外设置、重复数据划分以及排名和阈值化部署指标下进行评估。论文引入了可解释的结构信号,用于捕捉层次覆盖、系统提示欺骗、角色重定义和规避模式等攻击特征,并评估了这些信号在稀疏模型中以及结合强编码器基线时的贡献。实验结果表明,检测性能高度依赖于部署场景,且对阈值选择敏感,没有任何单一模型在所有设定下表现最优。基于Transformer的模型整体性能最强,结构信号在特定场景下提供了适度但一致的优势,并在更困难的任务中改善了低误报率情况。这些发现揭示了排名性能与部署有效性之间的差距,强调了在实际操作约束下评估提示注入防御的重要性。代码将开源。

💡 推荐理由: 提示注入是LLM安全部署的核心威胁。本文首次系统评估了检测方法在不同部署条件下的性能差异,揭示了排名指标与实际部署效果的鸿沟,为安全工程师选择或设计检测方案提供了关键指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peiran Wang, Ying Li, Yuan Tian

本研究针对基于大语言模型(LLM)的代理在工具调用中面临的间接提示注入攻击问题。现有防御方法要么在工具调用层面进行值检查而不追踪参数来源,要么从单一视角分析执行痕迹而缺乏干净的授权基线。作者提出 AuthGraph,一种双图对齐防御框架,构建两个互补图:注入推理图(从实际执行轨迹中建模信息来源,包括可能被操纵的归属)和授权图(从用户在隔离干净上下文中的意图推导,信息论上不可能受注入影响)。通过图对齐检查器结构比较两图,检测工具级和参数来源级偏差。在 AgentDojo 基准上,AuthGraph 将攻击成功率从 40% 降至 1%,同时保持 GPT-4o 上 76% 的任务完成率;在 AgentDyn 上,攻击成功率从 39% 降至 2%,效用保持 51%,优于 CaMeL、DRIFT 和 Progent 等现有防御。据作者所知,AuthGraph 是首个在参数来源层面结构比较授权规范与执行来源的代理安全防御,实现了细粒度注入检测且不牺牲代理灵活性。

💡 推荐理由: 首次在参数来源层面对比授权与执行来源结构,显著降低 LLM 代理面对间接提示注入的攻击成功率,同时保持实用性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Faruk Alpay, Taylan Alpay

该论文提出了 AgentSecBench,一个用于系统性评估大型语言模型(LLM)代理安全性的实证基准框架。LLM 代理在处理可信指令、检索记录和工具观测时,所有信息均通过同一个生成通道,导致数据流与权限混淆:即使应用策略未授权,不受信任的字符串也可能影响包含机密的响应或操作提议。AgentSecBench 基于一个形式化安全框架,定义了三个安全博弈:指令完整性、检索机密性和能力完整性,统一在“意图到执行无干扰”概念下,并允许特定的可泄露信息。该框架将应用策略表示为对授权观测和能力的投影,区分提示标注与强制投影,并衡量对抗优势以及防御是否在生成前关闭相关的模型可见通道。实验采用了精确标记(exact-marker)的方法,作为博弈的一种可观测实例,而非完整的语义安全声明,测试了泄露和禁止动作区分器,具有明确的真值基准。作者使用 Qwen3-0.6B 和 Qwen3-1.7B 模型,对六类防御方法进行了配对对抗性和良性控制执行实验。测量结果表明,当通道关闭时风险降低,但模型可见的对抗能力在某些情况下仍然可利用。最终成果是一种面向安全的评估方法:提示文本可以描述边界,而来源投影、能力限制和输出验证可以强制实施边界。该研究为 LLM 代理的安全评估提供了可量化的方法论,适合安全研究人员和 LLM 应用开发者阅读。

💡 推荐理由: LLM代理在实际应用中面临提示注入、隐私泄露和工具滥用等严重威胁,现有评估缺乏统一框架。AgentSecBench提供了可量化的安全评估方法论,能帮助防御者识别代理系统的薄弱环节,推动更安全的代理设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Yue Liu, Yanjie Zhao, Yunbo Lyu, Ting Zhang, Haoyu Wang, David Lo

这篇论文研究了一种针对Agentic AI编码助手的新型安全威胁。Agentic AI编码助手(如GitHub Copilot、Cursor等)能够代表开发者执行文件编辑、命令运行、互联网访问等操作,显著提升开发效率。然而,它们对外部工件(如代码仓库中的README、配置文件、第三方库文档等)的依赖引入了一个危险的攻击面:攻击者可以在这些外部工件中嵌入隐藏的指令(即prompt injection),当AI助手读取并处理这些内容时,这些恶意指令会劫持助手的原始意图,迫使它执行未授权的操作,例如下载恶意软件、修改代码、泄露敏感信息、甚至授予攻击者远程控制权限。论文首先系统阐述了此类攻击的工作原理:攻击者利用AI助手对自然语言指令的过度信任,在看似无害的文本中注入特殊标记或指令,使助手将其解释为系统级命令。作者通过实验测量了该类攻击的普遍性,发现许多流行的AI编码助手在默认配置下容易受到攻击。接着,论文分析了现有防御机制(如输入过滤、权限限制、提示词隔离等)的局限性,指出它们要么容易被绕过,要么会过度限制助手的正常功能。最后,作者提出了未来的研究方向,包括设计更鲁棒的提示词沙箱、开发基于异常检测的运行时监控、以及建立安全审计标准。该研究首次系统性地揭示了Agentic AI编码助手的安全漏洞,对AI辅助开发的安全实践具有重要指导意义。

💡 推荐理由: Agentic AI编码助手正被广泛采用,但现有研究多关注其功能性,忽视了其作为恶意指令执行通道的风险。本文揭示了一个可被利用的攻击面,提醒安全社区必须重新审视这类工具的信任模型,否则开发者将无意中成为攻击者的代理。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Becky Mashaido, Tapadhir Das

该论文揭示了当前基于检测的提示注入防御中存在的一个根本性盲区:高分类性能并不等同于表征鲁棒性。作者发现,当攻击者同时使用多种混淆操作(如同形字符替换、零宽字符插入、标点符号或表情符号噪声)时,被混淆的提示在预训练语言模型的嵌入空间中会部分坍缩到干净提示的流形上,这种现象被命名为“潜在嵌入坍缩”。实验基于多个不同深度和容量的BERT系列编码器进行,尽管所有检测器在分类任务上都达到了近乎完美的性能,但干净提示与混淆提示之间的最小边际距离仅为1.02,表明两者在潜在空间中几乎完全重叠。此外,混淆嵌入的类内方差高达3.33±6.23,远高于干净嵌入,显示出严重的潜在空间不稳定性。这些结果明确地表明存在一个“性能-鲁棒性差距”:标准评估指标完全无法捕获这种几何脆弱性。更值得注意的是,增加模型容量并不能缓解嵌入坍缩问题。因此,作者呼吁必须引入几何感知的鲁棒性分析作为当前基于性能评估的必要补充。该研究为安全社区敲响了警钟,提示现有的自动化防御可能在高精度掩蔽下存在结构性脆弱点。适合LLM安全研究人员、嵌入空间分析者以及防御系统设计者阅读。

💡 推荐理由: 该研究首次明确指出高检测性能可能掩盖严重的嵌入空间脆弱性,警告安全从业者不应仅依赖分类准确率来评估提示注入防御,必须重视几何鲁棒性分析。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongjang Yang, Hyunsik Na, Daeseon Choi

本文针对基于大型语言模型(LLM)的聊天机器人代理,研究了一种通过间接提示注入实现隐私泄露的攻击链。研究背景是:LLM代理通过结合自然语言推理和外部工具(如网页浏览)来处理用户请求,这提升了可用性,但也带来了安全风险,因为不可信的外部内容可能被纳入处理流程。作者聚焦于黑盒环境,即攻击者无法访问模型权重、系统提示或代理实现细节(包括查询处理过程中的轨迹管理方式)。首先,作者分析了攻击者如何通过构造看似无害但实际诱导代理执行攻击者定义目标的外部内容,来劫持代理的原始任务。然后,提出了一种新的提示注入技术——"exemplification"(示例化),该技术利用外部内容中的“桥梁”,将用户提示和检索页面的良性开头重新构造为少量示例,随后附加攻击者的目标。作者将其攻击成功率与先前的伪造补全(fake-completion)技术进行了比较。最后,在受控环境中使用虚构个人信息演示了概念验证的数据外泄链。结果表明,提示注入、越狱式指令引导和网页工具调用可以组合成一条可行的隐私泄露路径,即使在部署的聊天机器人代理中也可能实现。该研究为理解和防御此类攻击提供了实证基础。

💡 推荐理由: 揭示了LLM聊天机器人在处理外部内容时面临的新型隐私泄露风险,特别是通过间接提示注入实现的数据外泄链,对使用LLM代理的企业和开发者具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lei Zhao, Abhay Bhaskar, Edgar Dobriban

该论文提出了 LivePI(Live Prompt Injection),一个针对 AI agent 间接提示注入风险的基准测试框架。随着 OpenClaw 等 AI agent 被部署在本地工作流中并访问外部工具,间接提示注入(IPI)风险日益突出:agent 可能执行嵌入在不受信任输入(如电子邮件、下载文件、网页、代码仓库、群聊消息)中的有害指令。现有的评估通常规模较小、纯模拟或仅聚焦于少数输入渠道。LivePI 在近似生产环境但测试可控的虚拟机上运行,覆盖了七种输入表面(电子邮件、聊天、网页、本地文件、代码仓库、钱包等)、十二种攻击/渲染类型以及五种恶意目标,包括受保护信息窃取、未经授权的安全控制更改、不安全代码检索或执行、收件箱摘要窃取以及加密货币转账。研究在真实的虚拟机环境中对多个模型进行了测试,包括 GPT-5.3-Codex、Claude Opus 4.6、Gemini 3.1 Pro、Kimi K2.5 和 GLM-5,总攻击成功率在 10.7% 到 29.6% 之间。值得注意的是,群聊注入在所有测试骨干模型中均成功,仓库链接攻击虽样本较少但导致高严重性失败。论文还评估了一种双层防御机制,包括提示级过滤和执行前工具调用授权。在 GPT-5.3-Codex 设置下,该防御在 LivePI 中拦截了所有测试的恶意目标完成,同时保持了在 PinchBench 衍生工作负载上的良性实用性能。该工作为 AI agent 的安全评估提供了更现实的基准,并强调了多通道 IPI 风险的普遍性。

💡 推荐理由: AI agent 正被广泛应用于自动化工作流,其访问外部工具的能力带来了严重的间接提示注入风险。LivePI 提供了首个覆盖多输入表面、近似真实环境的基准测试,揭示了当前顶级模型的脆弱性,对 agent 安全建设具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yash Narendra

该论文针对现代AI助手面临的提示注入(prompt injection)威胁,提出了一种名为ESLD(External Surrogate Latent Defense)的潜在空间防御架构。在智能体(agent)场景中,语言模型需要从多个来源(如网络搜索、检索文档、工具输出等)获取信息,攻击者可能在这些输入中嵌入恶意指令,从而劫持助手行为。现有防御方案通常在助理模型前部署独立的“守卫模型”(guard model),守卫模型读取输入文本并输出“安全/不安全”的判决。然而,在多步智能体任务中,每一步都调用守卫模型会造成严重的延迟瓶颈。论文的核心发现是:守卫模型在输出判决之前,其内部隐藏表示(latent representation)已经包含了区分安全与恶意输入所需的信号。因此,直接读取该潜在信号可以绕过完整的前向推理,显著加速安全检查。实验结果表明,ESLD平均将安全检测速度提升3倍以上,同时检测准确率平均比守卫模型直接输出的判决高16.4个百分点。这不仅是一种延迟优化,更使得原本因速度受限无法在智能体每一步都运行的守卫检查可以部署在关键路径上,且准确率更高。ESLD是一种模型无关的架构,可叠加在任何现有守卫模型之上,无需重新训练或修改原模型。该工作主要贡献在于揭示了内部表征的判别能力,并设计出实用的加速与性能提升方案。适合AI安全研究人员、大模型部署工程师及对抗性机器学习从业者阅读。

💡 推荐理由: 提示注入是智能体AI面临的关键安全挑战,该工作提出了一种即插即用的防御加速方案,能在不牺牲准确率的前提下大幅提升检测速度,有助于推动防御机制在实时场景中的实际部署。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.6
Conf: 50%
👥 作者: Sahar Abdelnabi, Eugene Bagdasarian

本文聚焦于AI代理中最关键的提示注入漏洞。作者首先指出现有的主流防御策略(数据-指令分离)存在根本性缺陷:它既无法检测通过上下文操纵(如误导性背景信息或角色扮演)发起的攻击,又会降低代理在正常场景下做出符合上下文的适当行为的能力。为了更系统地理解这一困境,作者引入隐私理论中的情境完整性(Contextual Integrity, CI)框架来重新定义提示注入。CI理论强调信息流动必须符合特定社会情境的规范,据此可将攻击划分为三种类型:(1)误述流程——攻击者谎报信息来源或目的;(2)操纵规范——攻击者改变用户对合法行为的期望;(3)混合多个流程——攻击者同时在多个上下文中注入指令。通过构造具体的良性实验场景,作者证明任何防御策略都无法同时保证安全性与可用性:攻击者总能构建一个上下文使得被屏蔽的流看起来合理,而防守方若收紧规范则会拒绝大量合法请求。这一发现揭示了“不可能结果”:提示注入无法被彻底消除,只能被管理。因此,当前基于指令-数据分离的研究路线只能应对未来攻击面中日益缩小的一部分。作者提出,CI框架为评估上下文敏感的安全失效提供了原则性方法,并为设计CI感知的对齐机制(如动态上下文审查和规范学习)指明了方向。论文适合AI安全研究人员、LLM应用开发者以及关注自主代理安全的工程师阅读。

💡 推荐理由: 该论文从根本上挑战了当前提示注入防御的基础假设,指出数据-指令分离范式存在不可克服的局限性,并引入情境完整性理论预测了未来更复杂的攻击形态。对构建安全代理系统的从业者具有重要警示意义。

🎯 建议动作: 纳入内部风险评估,建议安全团队阅读原文并评估其理论对现有防御体系的冲击,考虑引入情境完整性分析框架到安全设计中。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Udari Madhushani Sehwag, Zhengyang Shan, Heming Liu, Dileepa Lakshan, Joseph Brandifino, Max Fenkell

本文研究了大型语言模型(LLM)代理(agent)在寻求澄清(clarification-seeking)行为下的安全性问题。澄清行为通常被视为代理的理想属性,允许其在执行不明确任务前先解决歧义。然而,作者发现这种交互模式会显著增加代理对提示注入攻击(prompt injection)的脆弱性。为此,他们提出了ASPI(Ambiguous-State Prompt Injection)基准测试,包含728个任务-攻击场景,专门将澄清作为一个独立的代理状态,并在受控条件下比较执行状态和澄清状态下的脆弱性差异。每个基准实例在匹配的执行和澄清设置下进行评估:执行设置中,代理基于完全明确的指令行动,仅通过工具返回的数据接触对抗内容;澄清设置中,代理必须先请求并整合额外的用户输入才能行动。作者评估了10个前沿LLM,发现澄清行为一致且显著地放大了脆弱性。例如,对于o3模型,攻击成功率从1.8%上升到34.0%;对于Gemini-3-Flash,则从2.2%上升到35.7%。分解分析表明,这种差距既反映了模型处理传入内容时的状态依赖性转变,也源于代理主动请求澄清接口带来的通道特定效应。这些发现表明,标准执行时的安全评估系统性地低估了交互式代理的攻击面,且在完全指定任务下的鲁棒性并不能转化为歧义状态下的鲁棒性。论文数据和源代码已公开。

💡 推荐理由: 揭示了LLM代理的澄清行为会显著放大提示注入攻击的风险,对当前依赖代理交互的AI应用(如客服、工具调用)构成实际威胁,提醒安全从业者需重新评估代理在歧义状态下的安全防护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma

本文提出一种针对大型视觉语言模型(LVLMs)的新型跨模态提示注入攻击方法CrossMPI。传统提示注入攻击通常局限于单一模态(如仅文本或仅图像),无法实现跨模态的提示扰动,即注入的提示只能影响模型对单一输入的解释。CrossMPI通过图像仅扰动实现跨模态注入,能够同时操纵模型对文本和视觉输入的解释。其核心创新在于将注入提示的扰动优化目标从视觉嵌入空间(约10^5参数)转向模型隐藏状态空间(约10^7参数),该空间负责多模态信息整合,从而增强攻击效果。为解决大参数空间优化带来的挑战,作者提出两项策略:一是层选择策略,识别对多模态整合最关键的网络层;二是距离递减扰动预算分配策略,根据像素与语义关键区域的距离递减分配扰动预算。实验表明,该方法在多个LVLMs和数据集上显著优于基线方法。本文揭示了LVLM在跨模态安全性方面的潜在漏洞,适合安全研究人员、多模态AI开发者及对抗攻击研究者阅读。

💡 推荐理由: 该研究首次实现仅通过图像扰动就能同时影响LVLM对文本和图像的解释,拓展了提示注入的攻击面,对多模态AI系统的安全部署构成威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi

本文针对 Web Agent 在开放网络环境中面临的提示注入攻击风险,提出了一种鲁棒防御模型 WARD。Web Agent 可通过与网站交互自动完成在线任务,但其依赖的 HTML 内容或视觉界面易被嵌入恶意指令,导致提示注入攻击。现有防护模型存在泛化能力差(对未见领域及攻击模式识别率低)、对良性内容误报率高、引入额外延迟影响部署效率、且难以应对随时间演化的对抗攻击等问题。为解决这些局限,作者构建了 WARD-Base 大规模数据集(包含来自 719 个高流量 URL 和平台的约 17.7 万样本),以及专门针对防护模型本身的提示注入攻击数据集 WARD-PIG。在此基础上,提出 A3T(自适应对抗攻击训练框架),通过基于记忆的攻击者与防护者协同进化过程迭代增强 WARD 的鲁棒性。大量实验表明,WARD 在分布外基准上实现了近乎完美的召回率,同时保持低误报率以保障 Agent 可用性;在遭遇针对防护模型的攻击和自适应攻击时,仍能在显著分布偏移下保持鲁棒;并且可与 Agent 并行运行,不引入额外延迟。该研究为 Web Agent 的安全部署提供了实用且高效的防护方案。

💡 推荐理由: 随着 Web Agent 在自动化任务中广泛应用,提示注入攻击成为严峻威胁。WARD 提出了首个兼顾高检测率、低误报、高效率和抗对抗攻击的防护模型,对保障 LLM 驱动的 Agent 安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chia-Pei, Chen, Kentaroh Toyoda, Anita Lai, Alex Leung

本文提出并实现了 IPI-proxy,一个开源的红队测试工具包,专门用于评估 Web 浏览型 AI 代理对间接提示注入(IPI)的防御能力。当前企业环境中,AI 代理通常被限制访问白名单域,但攻击者仍可通过在合法域中嵌入隐藏指令来实施 IPI 攻击。现有红队资源存在不足:预构建的对抗页面不在白名单范围内,而通用 LLM 扫描器仅探测模型 API 而非其检索的内容。IPI-proxy 的核心是一个拦截代理,它在运行时实时重写来自白名单域的 HTTP 响应,嵌入攻击载荷。该工具从六个公开基准(BIPIA、InjecAgent、AgentDojo、Tensor Trust、WASP 和 LLMail-Inject)中提取了 820 个去重的攻击字符串,形成统一库。YAML 驱动的测试框架独立参数化载荷集、嵌入技术(HTML 注释、不可见 CSS 或 LLM 生成的语义散文)和 HTML 插入点(6 个位置,从 head_meta 到 script_comment),无需模拟页面或沙盒环境即可进行参数扫描评估。此外,附带的外泄跟踪器记录成功回调。论文详细描述了威胁模型、设计决策和配置接口,旨在连接静态基准和实际部署,为 AI 安全团队提供可重复的评估基底,以测量和增强代理对 IPI 的防御能力。

💡 推荐理由: 该工具填补了现有红队测试空白,能真实模拟攻击者在生产环境中利用白名单域进行间接提示注入的场景,帮助安全团队在代理实际运行时评估和提升其鲁棒性。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Farzad Nourmohammadzadeh Motlagh, Mehrdad Hajizadeh, Mehryar Majd, Pejman Najafi, Feng Cheng, Christoph Meinel

该论文针对大型语言模型(LLM)驱动的应用中自然语言接口带来的SQL注入风险,提出了一种多层级安全框架。随着LLM被广泛用于将用户自然语言查询自动转换为SQL语句(Prompt-to-SQL),传统的SQL注入攻击方式得以进化:攻击者可以构造对抗性提示(adversarial prompts),引导模型生成恶意SQL查询,从而绕过基于查询字符串校验的传统防御。论文框架由三层组成:前端安全盾(Front-end Security Shield)负责对用户输入进行净化,过滤明显恶意内容;高级威胁检测模型(Advanced Threat Detection Model)利用行为和语义异常分析识别更隐蔽的攻击;特征签名控制层(Signature-based Control Layer)匹配已知攻击模式。研究团队构建了包含提示注入、混淆SQL负载、上下文操控等多样攻击场景的基准数据集,并在微调后的LLM上进行了全面评估。实验结果显示,该框架在保持低误报率的前提下实现了高检测准确率,显著提升了LLM驱动的数据库应用的安全性。论文贡献在于首次系统性地分析了LLM场景下SQL注入的新形态,并提出了一个实用的、可扩展的防御框架,为基于LLM的数据查询应用的安全部署提供了技术参考。

💡 推荐理由: LLM驱动的自然语言查询数据库正快速普及,但Prompt-to-SQL过程放大了SQL注入风险,现有防御未能覆盖。该论文系统揭示了该攻击面并提供了可落地的多层检测框架,对安全团队构建AI应用防护有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001

本研究聚焦于大语言模型(LLM)代理中的工具选择机制面临的提示注入攻击威胁。LLM代理通常通过调用外部工具来扩展其能力,例如搜索引擎、计算器或数据库查询。工具选择是代理根据用户指令和上下文自动决定调用哪个工具的关键步骤。研究者发现,攻击者可以通过精心构造的提示,操纵代理选择恶意工具或绕过安全限制,从而引发数据泄露、权限滥用等风险。论文系统性地分析了这类攻击的原理,提出了一种基于对抗性提示的威胁模型,并设计了多组实验验证攻击的可行性和影响。实验表明,当前主流LLM代理(如基于GPT-4、LLaMA等)的工具选择模块在面临针对性提示注入时表现出脆弱性。作者进一步讨论了防御策略,包括输入净化、上下文隔离和工具使用权限最小化等。该研究揭示了LLM代理安全性的新维度,为开发更健壮的代理系统提供了理论基础和实用建议。适合AI安全研究员、LLM应用开发者及安全工程师阅读。

💡 推荐理由: 随着LLM代理广泛应用,工具选择环节的安全隐患可能成为攻击者控制代理行为的突破口,导致敏感数据泄露或恶意操作。本研究率先系统性分析该威胁,对防御策略设计具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Reachal Wang, Yuqi Jia, Neil Zhenqiang Gong

本文提出了一种针对多源数据LLM应用的新型提示注入攻击方法ObliInjection。在现实场景中,LLM的输入数据往往来自多个不同来源,每个来源贡献一个输入段,攻击者仅能控制其中部分段,且通常不知道各段在输入中的排列顺序。现有的提示注入攻击要么假设整个输入数据来自单一攻击者控制的来源,要么忽略多源数据中段顺序的不确定性,因此在多源场景下成功率有限。ObliInjection通过两项关键技术创新解决这一挑战:一是“顺序无关损失”(order-oblivious loss),该损失函数量化了无论干净段和污染段如何排列,LLM完成攻击者选定任务的可能性;二是“顺序GCG算法”(orderGCG),专门设计用于最小化顺序无关损失并优化污染段的内容。实验涵盖了三个不同应用领域的数据集和十二种LLM,结果表明即使只污染输入中6-100个段中的一个,ObliInjection也能高效实施攻击。论文提供了代码和数据开源链接。本研究揭示了多源数据LLM应用中一个被忽视的安全漏洞,对LLM安全防护具有重要参考价值。

💡 推荐理由: 提示注入是LLM安全的核心威胁之一,而多源数据场景普遍存在于各类LLM Agent和工具链中。ObliInjection首次系统地研究了段顺序不确定下的注入攻击,该攻击隐蔽性强且成功率较高,对依赖多源输入的LLM应用构成实际风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shihao Weng, Yang Feng, Jinrui Zhang, Xiaofei Xie, Jiongchi Yu, Jia Liu

随着大型语言模型(LLM)代理的兴起,其通过集成工具调用、技能和外部知识,显著提升了自动化能力,但也引入了新的安全风险。其中,提示注入攻击(Prompt Injection)已成为主要威胁:攻击者将恶意指令嵌入代理工作流中,劫持代理行为。然而,现有基准测试和防御机制存在根本性局限——它们假设代理在完全指定的用户指令下工作,攻击是直接且与上下文无关的。这种假设无法反映真实部署场景,其中代理行为通常依赖动态的上下文信息(如多轮对话、环境状态),且攻击者可自适应地调整攻击策略。为弥补这一缺口,本文首先提出AgentLure基准,涵盖四个代理领域(如代码执行、网页导航等)和八个攻击向量,覆盖多种攻击面。评估表明,现有防御在上下文感知攻击下表现不佳。进而,本文提出ARGUS防御机制,通过构建影响溯源图(Influence Provenance Graph)来追踪不可信上下文如何传播至代理决策,并在执行前验证决策是否基于可信证据。具体而言,ARGUS对代理的每个动作进行审计,分析其输入来源(用户指令、工具输出、外部知识等),通过溯源图判定决策是否被不受信上下文污染。实验结果显示,ARGUS将攻击成功率降低至3.8%,同时保持87.5%的任务效用,显著优于现有防御,且能抵御自适应白盒攻击。这项工作为安全部署LLM代理提供了关键理论框架和实用方法。

💡 推荐理由: LLM代理在自动化任务中广泛应用,但现有防御仅针对简单提示注入,无法应对利用动态上下文的复杂攻击。ARGUS首创了基于溯源图的决策审计机制,为保护企业级代理系统免受上下文感知攻击提供了可行方案。

🎯 建议动作: 研究跟进,评估ARGUS机制在自身LLM代理系统中的应用可行性,并考虑集成溯源图审计模块。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mingshuo Liu, Yiwei Zha, Min Chen

本文提出了一种名为 PIIGuard 的网页级防御机制,旨在缓解大型语言模型(LLM)助手在浏览网页时从公共页面中抓取联系型个人身份信息(PII)的风险。现有的防御措施大多部署在模型层、服务层或智能体层,而普通网页所有者缺乏可行的部署选项。PIIGuard 通过重新利用间接提示注入作为保护手段:网页所有者嵌入优化的隐藏 HTML 片段,引导模型避免逐字或可重建地披露联系 PII。该方法利用基于规则的泄漏评分、进化变异和最终基于评估器的可恢复性评估来搜索片段文本和插入位置。在直接 HTML 评估中,针对 GPT-5.4-nano、Claude-haiku-4.5 和 DeepSeek-chat(最新 v3.2)三个目标模型,PIIGuard 在基于规则和基于评估器的泄漏评估下至少达到 97.0% 的防御成功率,通常达到 100.0%,同时保持了良性同页面问答的效用。进一步评估了两种更难的设置:公共 URL 浏览和攻击方对抓取网页的 LLM 清洗。结果表明,页面侧防御片段在部署中对于某些模型-位置对仍然有效,但鲁棒性在不同浏览界面和清洗提示之间差异很大。总体而言,PIIGuard 证明网页所有者可以使用页面侧片段作为网络接地 PII 泄漏的实际缓解措施。

💡 推荐理由: LLM 助手从公开网页中无意识抓取个人联系信息已成为现实威胁。PIIGuard 首次提出由网页所有者主动嵌入防御片段的方法,为无法控制模型或服务层的个人或组织提供了低成本、可部署的 PII 泄露防护手段。

🎯 建议动作: 研究跟进,评估在自有网站或客户网站上部署类似防御片段的可行性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes

本文揭示了一种针对闭源大语言模型(LLM)的新型攻击威胁,攻击者能够通过微调接口实现基于优化的提示注入攻击。研究指出,LLM厂商提供的远程微调API允许开发者针对特定任务对模型进行微调,但同时也暴露了损失函数类信息(loss-like information),攻击者可利用这些信息指导对抗性提示的搜索。作者以Gemini微调API为例,实验表征了其返回的损失函数值,并证明这些信号能够通过贪心搜索算法有效支持对抗性提示的离散优化。在PurpleLlama提示注入基准测试中,针对Google Gemini系列LLM的攻击成功率达到了65%至82%。该攻击本质上利用了实用性与安全性之间的经典权衡:微调接口为开发者提供了便利,但也使LLM暴露于更强大的攻击之下。研究成果提醒安全社区关注LLM微调接口作为攻击面的风险,并呼吁设计更安全的微调机制。

💡 推荐理由: 揭示LLM微调接口可被用于进行基于优化的提示注入攻击,攻击成功率高达82%,突破了传统工程化提示注入的限制,为LLM供应链安全敲响警钟。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia

该论文提出 FlashRT,首个针对长上下文大语言模型(如 Gemini-3.1-Pro 和 Qwen-3.5)中提示注入和知识破坏攻击的优化红队框架。现有基于优化的红队方法虽然攻击效果好,但计算和内存开销巨大,尤其对于长上下文场景(如 32K token 的上下文需要 264 GB GPU 内存),阻碍了社区尤其是学术研究者对 LLM 安全风险的系统评估。FlashRT 通过设计高效的梯度计算和内存管理策略,显著降低资源消耗。实验表明,与基线 nanoGCG 相比,FlashRT 实现 2x-7x 的加速(例如将运行时从一小时降至十分钟以内)和 2x-4x 的 GPU 内存降低(例如将 32K token 上下文的 GPU 内存从 264.1 GB 降至 65.7 GB)。该框架可泛化应用于其他黑盒优化方法(如 TAP 和 AutoDAN)。论文开源了代码(https://github.com/Wang-Yanting/FlashRT),旨在为社区提供高效的红队工具,支持系统化评估长上下文 LLM 的安全性。适合 LLM 安全研究者、红队测试工程师及关注 LLM 对齐与防御的从业人员阅读。

💡 推荐理由: 长上下文 LLM 安全评估因高昂计算成本而受限,FlashRT 大幅降低门槛,使学术界和中小团队也能进行系统化红队测试,推动 LLM 安全研究普及。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengyao Du, Han Fang, Haokai Ma, Jiahao Chen, Kai Xu, Quanjun Yin, Ee-Chien Chang

本文研究了基于截图的Web代理(screenshot-based web agents)面临的提示注入攻击(prompt injection attacks)威胁。这类代理通过渲染的视觉页面而非结构化文本来与网页交互,使得现有的基于文本的防御措施失效。尽管已有基于多模态的检测方法,但它们通常依赖大型视觉语言模型(VLM),导致高昂的计算开销(推理时间长、GPU内存占用大)。作者观察到,被注入恶意内容的网页在视觉和文本上均表现出与良性网页不同的特征。基于此,提出SnapGuard,一种轻量级的提示注入检测方法,将问题转化为对网页截图的模态表示分析。SnapGuard利用两个互补信号:(1)视觉稳定性指标(visual stability indicator),通过检测由恶意内容引起的异常平滑梯度分布来识别异常;(2)通过对比极性反转(contrast-polarity reversal)技术恢复的面向动作的文本信号(action-oriented textual signals)。实验在8种攻击场景和2种良性设置下进行,结果表明SnapGuard的F1分数达0.75,优于GPT-4o-prompt,同时推理速度提升8倍(1.81秒 vs 14.50秒),且无额外内存开销。该工作为资源受限环境下的Web代理安全防护提供了可行的轻量化方案。

💡 推荐理由: 对于部署基于截图Web代理的SOC团队,该研究提供了一种低开销的提示注入检测手段,无需依赖重型VLM,大幅降低推理延迟和资源消耗,有助于实时防御。

🎯 建议动作: 研究跟进,评估其与现有Web代理框架的集成可行性

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)