👥 作者: Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei Zhang
大型语言模型驱动的Web代理(Web Agent)正越来越多地被部署在真实环境中,它们需要处理不可信的网页内容并执行具有直接后果的操作,因此容易受到提示注入攻击——看似良性的内容中嵌入对抗性指令以操纵代理行为。现有的安全基准采用“攻击中心”视角,仅关注注入的技术可行性,而忽略了危害在不同利益相关者之间的不对称分布。实际上,同一次攻击可能对用户、卖家、平台等不同实体产生截然不同的后果,且同一攻击模式对不同目标的有效性也可能显著不同。为捕捉这些特性,本文提出**SBC**(Stakeholder-Centric Benchmark),一个以利益相关者为中心的基准,系统性地对真实Web代理系统中的危害进行分类和归因。SBC区分受影响的实体(如用户、卖家、平台),将攻击分解为具体目标(如信息窃取、任务劫持、信誉损害等),并采用互补的结果级和过程级度量进行评估。实验结果显示,当前的主流代理无法可靠地抵御任何单一攻击目标,且失败模式呈现多样化的定性差异:包括“隐蔽寄生”(攻击成功但不干扰用户委托任务)、“错位干扰”(任务被中断但攻击未成功)和“复合失败”(对抗目标与任务完整性同时被违反)。这些模式在传统评估中被完全忽略。本文的工作强调了在真实部署中采用利益相关者感知评估的必要性,为LLM基代理的安全性研究提供了新的视角和工具。该基准已开源(https://github.com/StakeBench/SBC)。
💡 推荐理由: 该研究揭示了提示注入攻击对Web代理不同利益相关者的影响差异,提供了一个结构化的危害归因框架。安全从业者可借此评估自身系统在复杂多角色场景下的真实风险,避免传统单维度评估的盲区,从而设计更有针对性的防御策略。
🎯 建议动作: 研究跟进:阅读论文并下载基准框架,评估自身Web代理系统在用户、卖家、平台等不同视角下的提示注入脆弱性,重点关注隐蔽寄生和错位干扰等非传统失败模式。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Pengfei He, Lesly Miculicich, Vishesh Sharma, Ash Fox, George Lee, Jiliang Tang, Tomas Pfister, Long T. Le
随着大型语言模型(LLM)从单纯的文本生成器迅速演变为能够与外部工具和环境交互的智能体系统,新的安全风险也随之出现,其中最具威胁的是间接提示注入攻击——攻击者通过不可信的外部数据源(如网页、数据库、API响应)向LLM agent注入恶意指令,使其执行非预期行为。现有的防御方案主要集中在推理时阻断恶意内容,而现有的红队测试方法又主要优化攻击成功率,导致开发者无法清晰了解潜在的注入漏洞如何在agent内部传播与触发。针对这一空白,本文提出PI-Hunter,一种自动化的agent审计框架,用于主动暴露LLM agent中的漏洞。PI-Hunter的核心思想是构建“源感知”测试用例——即测试用例不仅包含恶意指令,还模拟了攻击来源的可信度、上下文位置等真实场景属性。随后,通过反馈驱动的探索机制(类似于进化算法或强化学习),PI-Hunter迭代演化这些测试用例,以最大化诱导agent检索并执行外部环境中嵌入的恶意指令的概率。该框架不仅能发现是否存在注入漏洞,还能定位漏洞触发的具体环节(如哪个外部源、哪条工具调用链)。在多个基准测试(包括不同的agent架构、攻击类型和防御措施)上的实验表明,PI-Hunter在漏洞暴露率和攻击面覆盖率上显著超越了现有的自动化红队基线方法,并且在面对现有提示注入防御(如输入过滤、指令隔离)时仍然保持了有效性。此外,PI-Hunter还提供了可解释的审计报告,帮助开发者理解漏洞根源。本文的主要贡献包括:(1)提出了首个面向LLM agent的自动化漏洞暴露与定位框架;(2)设计了源感知测试用例生成与反馈驱动进化方法;(3)在多种场景下验证了框架的有效性与鲁棒性。该工作适合安全研究员、LLM应用开发者和AI安全工程师阅读。
💡 推荐理由: LLM agent面临严重的间接提示注入风险,而现有防御和红队方法缺乏系统性的漏洞暴露与定位能力。PI-Hunter提供了一种自动审计手段,能主动发现并精确定位注入漏洞,帮助开发者在实际部署前加固系统,对提升agent安全性具有重要实践价值。
🎯 建议动作: 研究跟进,评估其在自身Agent系统中的应用可行性
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Timothy McAllister, Sina Abdidizaji, Ivan Garibay, Ozlem Ozmen Garibay
本文研究基于大语言模型的多智能体系统(MAS)在面临敌对攻击时的鲁棒性问题,特别关注模型规模与系统级安全之间的关系。作者在HumanEval基准上,使用两个开源模型家族(不同参数量)进行实验,评估线性多智能体工作流的安全性。实验发现一种“服从-修正对称性”:在无修正的流水线中,较大模型(如27B参数)更可能忠实地执行恶意指令,导致控制组与恶意组性能差距高达53.7个百分点;然而,添加一个轻量级的终端“修复器”(Fixer)阶段后,该差距骤降至0.6个百分点,并恢复与对照组统计上无差异的性能。这表明,严格的线性协作结构在足够大的模型规模下可以具有鲁棒性,并且先前归因于线性拓扑的脆弱性可能源于缺乏修正机制。论文的核心贡献在于揭示了模型规模对MAS安全性的双刃剑效应,并提出了一个简单有效的修复策略,为构建可扩展且安全的多智能体系统提供了新视角。适合对LLM安全、多智能体系统及对抗鲁棒性感兴趣的研究人员阅读。
💡 推荐理由: 多智能体系统正被部署于实际场景,其安全性至关重要。本研究发现模型规模越大越易被利用,但线性流水线加修复可大幅提升鲁棒性,为安全设计提供了可操作的启示。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: David Hofer, Edoardo Debenedetti, Florian Tramèr
该论文系统评估了针对LLM Agent的自动提示注入攻击方法。在Agentic环境中,LLM Agent会与不可信的外部数据交互,间接提示注入成为关键威胁。然而,在现实Agent场景下,自动攻击方法(如用于越狱的GCG和TAP)尚未被充分探索。作者在AgentDojo框架中,将白盒(GCG)和黑盒(TAP)方法适应到Agent设置,并在四个领域的80个任务对、多种模型上进行评估。实验发现:黑盒优化(TAP)显著优于基于梯度的方法(GCG),性能差距源于GCG在合理计算预算下的优化不稳定性;TAP的有效性依赖于攻击者模型,通用能力和安全微调均影响攻击成功率——更强模型产生更有效注入,而安全微调的攻击者可能拒绝生成对抗性提示;任务通用攻击可有效迁移到未见任务和域外领域,但在小型开源模型上优化的攻击无法迁移到前沿模型(如GPT-5)。这些发现表明自动提示注入是一种可信但模型依赖的威胁,实现模型无关的利用仍存在重大障碍。该研究为LLM Agent安全性的防御者提供了针对性见解。
💡 推荐理由: 首次系统评估自动提示注入攻击在真实Agent设置下的效果,揭示了黑盒攻击的高效性和模型依赖性,对设计Agent安全防护策略具有指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saeid Jamshidi, Amin Nikanjam, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh
本文针对大型语言模型在多轮交互中长期上下文推理的安全性问题展开研究。在多轮对话中,LLM需要维护一个动态演变的上下文,而不仅仅是生成孤立回复,这使得模型容易受到提示注入和上下文投毒攻击——攻击者通过注入局部的看似合理的对抗性片段,逐步扭曲模型的推理轨迹。现有的防御手段主要关注单轮输出过滤,忽视了跨轮上下文的演化,导致长时间跨度的推理暴露在风险中。虽然模型上下文协议(MCP)标准化了上下文交换和工具调用,但它仅作为一个被动的路由层,无法强制执行上下文的稳定性。为此,本文提出了博弈论安全模型上下文协议(GT-MCP),一种控制器驱动的多智能体方法,将上下文管理视为一个闭环动态过程。GT-MCP协调三个异构的LLM智能体,并通过一个信任函数选择输出,该函数联合评估:输出的因果一致性与已验证的上下文图的匹配程度、智能体间的语义一致性,以及随时间的分布漂移。当检测到不稳定性时,一个基于回滚的自我修复机制会恢复已验证的上下文,阻止未受支持的片段传播。在自适应对抗威胁模型下,对500轮交互的实证评估表明:99.6%的轮次中上下文漂移保持有界,仅0.4%的轮次需要恢复;每轮效用高度集中(中位数-0.19,P05=-0.72,P95=0.30),严重退化(低于-1)仅占0.4%;在控制器层面没有注入攻击成功;选定输出的胜率稳定在98%以上;计算开销可预测,每token延迟为1.63e-3秒。
💡 推荐理由: 本文提出了一种新颖的基于博弈论的多智能体控制方法,在LLM长期对话中主动防御上下文投毒和提示注入攻击,填补了现有防御仅针对单轮输出的空白,对部署LLM应用的蓝队具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianwei Tai
本文针对脑机接口(BCI)到大型语言模型(LLM)智能体的管道提出了一个新型攻击面:脑提示注入(brain-prompt injection)。该管道将解码的神经活动作为工具使用智能体的授权通道,但攻击者可通过信号侧扰动、上下文仅注入和自适应双解码器攻击来改变路由动作,而EEG侧或文本侧监控器却无法察觉。作者定义了一个“路线安全审计契约”,包含最小日志模式、分母层次结构和端点规范,并证明了审计模式分离定理以及C3攻击依赖分解,表明净一致性和边际稳健性无法识别控制C3路由的联合项。作为校准层,作者将分割共形校准应用于非神谕EEG确认通道,并在明确威胁原型矩阵下报告了假接受前沿。在EEGMMI原生左/右命令控制数据集上,包含5400个事件、无害工具存根和种子/案例分母进行实例化。结果表明:来源块C2路由(0.000)、一致加来源路由C3翻转(1.000)、确认加来源路由C3翻转(0.000)。共形前沿在采集隔离下达到FAR 0.000(清洁效用0.150,α=0.005)和FAR 0.119(清洁效用0.452,α=0.10);攻击者可控制的确认通道将边界破坏至约1。主体簇自举在60名受试者上验证了区间;跨架构(TinyEEGNet、EEGNetV4)和容量扫描结果显示了领域内饱和。作者强调调解和确认可降低风险,但并非意图证书。本文为BCI-LLM智能体系统的安全性提供了理论基础和实用审计框架,适合安全研究人员、BCI系统开发者和LLM智能体安全从业者阅读。
💡 推荐理由: 首次揭示了BCI-LLM智能体管道中的脑提示注入攻击面,证明了传统监控盲区,对新兴的脑机接口驱动智能体系统的安全审计具有奠基性意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hyunseok Paeng
本文揭示了基于检索增强生成(RAG)的大语言模型(LLM)推荐系统中一种可重复的安全训练失效模式,称为“注入悖论”。该现象表现为:嵌入在检索文档中的提示注入(prompt injection)非但没有帮助攻击者提升目标品牌推荐率,反而由于模型的安全训练特性,导致被注入的品牌推荐率显著下降,甚至低于无注入基线。在安全训练的Claude模型(如Claude Opus 4.6)上,即使语料库中该品牌的4个文档仅有1个包含注入,目标品牌的前2推荐率也从54%基线降为0(50次试验全部为零)。这种抑制效应不仅作用于被注入的文档本身,还会扩散至同一品牌的其他未修改文档。作者通过反事实实验和跨三个品牌的测试证实了这一方向性模式。值得注意的是,在GPT模型上观察到相反结果:相同注入反而增加了推荐率,表明不同模型系列对注入上下文的行为存在差异。这些发现提出了一种反向攻击场景的可能性:攻击者可能在竞争对手的文档中嵌入提示注入,利用模型的安全敏感性来抑制竞争对手的品牌。该研究对RAG系统的安全设计、提示注入防御策略以及LLM推荐系统的鲁棒性评估具有重要启示。
💡 推荐理由: 该研究揭示了一种新颖的注入攻击方向:攻击者可利用模型安全训练特性来压低竞争对手品牌推荐率,颠覆了传统上认为注入总是用于提升自身品牌的认知,为蓝队提供了新的对抗视角和防御切入点。
🎯 建议动作: 研究跟进:建议RAG系统开发者复现该现象,并评估自身模型在类似注入下的品牌推荐变化;考虑在检索阶段增加文档来源可信度验证或注入检测。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianguo Zhu
检索增强生成(RAG)系统通常将用户查询、检索文档、元数据、系统标签和任务指令序列化为一个自然语言提示。本研究揭示了一种源权威边界失效模式:攻击者控制的检索文本可以冒充元数据、来源、权威或披露策略信号,这些信号对模型而言呈现为控制相关信息。作者将这种模式称为文档作者控制信号冒充(DACSI)。DACSI是间接提示注入的一个子类,采用非命令式、类元数据的载荷。其核心见解是:文档作者标签是数据,而非策略。命令式注入要求模型忽略、覆盖或违反策略;而DACSI则探索当RAG提示渲染将可信与不可信文本合并到同一自然语言通道时,不可信文档文本是否会被错误地归因为授权控制信号。作者在六种模型设置(DeepSeek V4 Pro、Qwen3.5-397B、DeepSeek V4 Flash、GPT-5.5、Gemini 3.1 Pro Low、GLM-4.7)下,结合不同的提示压力水平、注入基线、信号分类、RAG中介管道、系统控制探测、源权威归属探测以及合成金丝雀格式进行了评估。实验按模型制度解释证据:DeepSeek V4 Pro和Qwen3.5-397B提供了最清晰的正向提升(即易受攻击),DeepSeek V4 Flash是高风险设置,GPT-5.5和Gemini 3.1 Pro Low是强边界探测但仍存在选择性残留风险,GLM-4.7是饱和泄漏边界案例。结果表明,DACSI值得单独评估,因为它利用无命令的元数据/来源/策略表面,沿RAG特定源权威路径进行攻击,并且对源/通道分离有响应。源权威归属探测提供了行为归因证据,而非内部机制证明。该研究适合RAG系统开发者和安全工程师关注,强调了在提示渲染中区分可信与不可信来源的重要性。
💡 推荐理由: DACSI攻击成本低、易实施,利用了RAG系统将用户查询与检索文档混合到单一提示的设计缺陷,可绕过安全边界导致信息泄露或非授权操作。随着RAG在对话系统和企业搜索中的广泛应用,该攻击具有普遍威胁。
🎯 建议动作: 实验验证并评估自身RAG系统对该攻击的鲁棒性,考虑实施源/通道分离防御措施
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jafar Isbarov, Umid Suleymanov, Ilia Shumailov, Murat Kantarcioglu
本文介绍了 GitInject,一个用于评估现实世界中 CI/CD 流水线(特别是 GitHub Actions)中 AI 代理提示注入漏洞的开源框架。随着 AI 代理越来越多地被集成到 CI/CD 流水线中,用于自动审查拉取请求、分类问题和维护代码库,这些代理在处理不受信任内容的同时拥有较高的仓库权限,因此容易受到提示注入攻击,可能导致供应链安全风险。与以往模拟工具调用的代理安全基准不同,GitInject 通过创建临时仓库并触发实际工作流运行,使沙箱约束、凭证处理和权限边界完全模拟生产环境。利用 GitInject,作者测试了四个 AI 提供商的工作流配置,并记录了 11 种攻击类型,涵盖配置文件注入、凭证泄露、判断操纵和可用性攻击。研究发现,所有被测试的提供商在其默认配置下至少容易受到一种攻击类别的攻击,且最关键的结构性漏洞源于 CI/CD 基础设施如何处理凭证和配置文件,而非特定模型的行为。对于每种确认的攻击类别,作者识别了最小成本的工作流级缓解措施,并分析了其覆盖范围和局限性。GitInject 已公开发布,以促进该方向的进一步研究。本文适合对 AI 代理安全、CI/CD 流水线安全以及提示注入攻击感兴趣的读者。
💡 推荐理由: 本文首次系统性地评估了真实 CI/CD 流水线中 AI 代理的提示注入漏洞,揭示了由于基础设施设计缺陷导致的结构性风险,为安全社区提供了实用的评估工具和缓解建议。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mudit Sinha, Sanika Chavan
本文研究了一种针对大语言模型的新型间接提示/内容注入攻击方式。传统的基于文本的防御假设恶意信号在文本视图中可见,但作者发现当恶意负载以结构化浮点参数形式传输,并仅在碎片化遥测中重建时,可以绕过文本检测器。具体来说,攻击者将恶意指令编码为浮点数数组(使用IEEE 754格式),通过结构化输入管道传递给LLM,LLM在解析时重建出原始文本,从而执行注入。作者在三个商业LLM API上进行了14400次攻击试验,测试了最新的双重文本分类器防御(Prompt Guard 2 + TF-IDF集成),发现浮点数组载体在最强防御下仍能达到94.3%的泄露成功率(ASR)。同时,针对微调的roberta-base检测器也观察到类似效果。作者强调,即使模型拒绝执行,下游系统可能对引用的标记做出反应,因此泄露ASR是关键指标。通过2x2消融实验,作者发现数据层存储和重建层碎片化共同作用才能绕过文本视图检测。文中提出了一种简单的xxd检测器和语义验证块可以阻止当前攻击实例,因此本文的贡献不在于提供不可检测的漏洞,而是揭示了在结构化输入管道中仅依赖文本检测的失败边界,尤其是当LLM暴露于重建的辅助通道时。适合安全研究人员、LLM服务提供商以及防御系统设计者阅读。
💡 推荐理由: 本文揭示了一种绕过文本防御的间接提示注入方法,挑战了仅依赖文本检测的安全假设,对结构化输入管道的LLM应用具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Paulo Ricardo Ferreira Neves, Edson Rodrigues da Cruz Filho, Paulo Henrique Eleuterio Falsetti, João Vitor Pavan, Ian Degaspari, Henrique Vieira Laturrague, Patrick Vieira Laturrague, Guilherme Nielsen Dias, Marccello Wilson Perez Berto, Gustavo Voltani Von Atzingen
大型语言模型(LLM)在自然语言处理任务中展现出强大能力,但易受提示注入(PI)和越狱(JB)攻击。此外,现有基准评估可能受到数据污染和部分信息泄露的影响,导致性能估计不可靠。本文提出 GuardNet——一种基于浅层神经网络(BiLSTM)集成(ensemble)的护栏系统,模型参数量约 4700 万。作者假设在对抗场景中,鲁棒性更多依赖于示例覆盖的多样性和阈值校准,而非模型规模。实验结果表明,GuardNet 在盲测 JBB-Behaviors 基准上达到 AUROC=0.747(n=200),在专有基准上(n=50)F1 分数为 0.92,且通过阈值校准和声明部分信息泄露的评估实现。系统在 CPU 上平均延迟约 50 毫秒,适合在成本和基础设施受限的生产环境中部署。尽管与 Mistral-7B 和 Llama-3.1-8B 等大型 LLM 相比,GuardNet 在 F1 和 AUROC 上仍有差距(后者性能更优),但 GuardNet 提供了轻量级、高效的防护方案,为实际部署提供可行选择。
💡 推荐理由: GuardNet 展示了轻量级神经网络集成在对抗提示注入和越狱攻击中的潜力,为资源受限环境下的 LLM 安全防护提供了实际可部署的方案。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuanbo Xie, Tianyun Liu, Yingjie Zhang, Suchen Liu, Yulin Li, Liya Su, Tingwen Liu
该论文系统性地研究了新兴的跨会话存储提示注入(Cross-Session Stored Prompt Injection)威胁,这是针对现代 Agentic 系统(基于 LLM 的自主代理系统)的一种攻击范式。传统提示注入攻击通常局限于单个会话内部,攻击者通过构造恶意输入诱导 LLM 产生不安全行为。然而,Agentic 系统的核心特性在于其跨会话持久化状态——这些系统通过记忆(memory)、文件系统(filesystem)、工具(tools)以及其他长期存在的上下文工件(contextual artifacts)来维护和演化共享的世界状态。这种设计极大地扩展了提示注入的攻击面,使得一次成功的注入能够持久化地嵌入系统状态中,并在未来多次执行中持续产生影响,类似于 Web 安全中的存储型跨站脚本(Stored XSS)。
论文首先对存储提示注入进行了形式化定义,提出了一种分类法(taxonomy),系统梳理了对抗性内容如何通过不同持久化通道(如记忆、文件、数据库等)在 Agentic 系统中留存并影响跨会话行为。在此基础上,作者开发了一套基准测试(benchmark)和沙箱工具包,用于定量评估不同模型、攻击目标及持久化通道下的攻击成功率。实验结果表明,持久化机制将提示注入从一次性的、模型级的威胁转变为一种长期存在的、系统级的漏洞,攻击者可以远程植入恶意逻辑,在后续会话中静默操控 Agent 的行为,而无需持续交互。
这项工作适合安全研究人员、LLM 应用开发者以及 Agentic 系统架构师阅读,它揭示了持久化状态带来的新安全风险,并提供了评估框架,为后续防御研究奠定了基础。值得注意的是,该论文尚未提出具体防御措施,但深入分析了攻击机制和影响范围,属于前沿威胁分析类研究。
💡 推荐理由: Agentic 系统正快速落地,其跨会话持久化状态带来了全新的攻击面。本文首次系统性地定义并评估了存储提示注入,揭示其从瞬时威胁变为长期系统级风险的转变,对 LLM 安全架构设计具有里程碑式意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hang Li, Fedor Filippov, Yuling Lin, Pengfei He, Kaiqi Yang, Yucheng Chu, Yingqian Cui, Hui Liu, Jiliang Tang
本论文研究基于大语言模型的自动评分(AG)系统中的提示注入攻击。随着LLM在自动评分中的广泛应用,其安全风险日益突出。攻击者可能通过提示注入操纵评分系统,使系统无论答案质量如何都给出高分,严重威胁教育评估的公平性、可靠性和完整性。作者系统性地研究了此类攻击在教育场景中的有效性,并评估了现有防御策略的效果。实验表明,当前基于LLM的自动评分系统仍然高度易受提示注入攻击。该研究旨在提高对这一新兴威胁的认识,并推动未来构建安全、稳健和可信的LLM教育系统。
💡 推荐理由: 提示注入攻击可能破坏基于LLM的自动评分系统的公平性,威胁大规模在线考试和教育评估的可信度。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen
该论文针对LLM Agent安全领域,揭示了一种新型的多步Trojan攻击范式。在本地Agent harness(如OpenClaw模拟的工作空间)中,LLM能够读写文件、调用工具并在会话间复用工作空间状态。攻击者可以将恶意prompt注入到文件或工具输出中,Agent自动读取这些隐藏指令并持久化存储,后续执行时触发。这种攻击的隐蔽性在于单一步骤看似无害,但组合后可将不可信文本转化为持久控制令牌(如“SYSTEM OVERRIDE”)。现有防御多孤立检测单一步骤,能阻断显式恶意行为,但无法识别植入后门的写操作。作者构建了ClawTrojan基准,在GPT-5.4上实现95.5%的攻击成功率(ASR),而传统单轮prompt injection攻击的ASR接近0%。为应对该威胁,提出DASGuard防护机制:扫描敏感文件中类似控制令牌的文本,追溯其来源,移除不可信来源的控制内容。DASGuard结合运行时攻击阻断与工作空间净化的提交机制,实现了强大的动态防御。实验表明DASGuard能有效检测并阻断多步Trojan攻击,同时保持较低误报率。该工作对于构建安全可靠的LLM Agent系统具有重要参考价值。
💡 推荐理由: 揭示了LLM Agent中prompt injection可转化为持久后门的新型攻击链,现有逐步检测防御失效,需关注跨步骤的复合威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie
本文针对提示注入攻击的防御问题,指出现有检测器存在异质性:每个检测器在不同攻击类型上表现各异,没有单一检测器始终可靠。然而,现有系统仍采用固定单检测器流水线,将每个请求都交给同一个检测器处理,从而暴露于其盲区。作者提出将防御重新定义为检测器分配问题:给定一个异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM法官。为此,他们提出了SCOUT(Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage)框架,通过预测每个检测器在类似历史输入上的样本级可靠性和延迟,实现动态分配决策,并向外暴露一个安全-效用阈值供操作员调节(效用包括良性通过率和墙钟时间)。为了评估该设置,他们构建了SCOUT-450基准,该基准包含了结构复杂、面向代理的注入攻击,这些攻击在旧的提示注入数据集中代表性不足。在SCOUT-450上,与始终启用GPT-4o法官相比,安全导向的工作点将攻击成功率降低46%,总墙钟时间减少40%,而良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准(BIPIA、IPI、IHEval),改进了安全-效用前沿。
💡 推荐理由: 该工作提出了一个新颖的防御范式,通过预测性检测器分配替代固定流水线,显著提升安全性与效率,尤其适用于需要多步骤推理的Agent场景。
🎯 建议动作: 研究跟进
排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Mohammadreza Rashidi
该论文研究了工具调用ReAct智能体(如GPT-4o-mini和Claude Haiku)在面对间接提示注入攻击时的脆弱性。ReAct智能体交替进行链式思考推理和工具调用,广泛应用于日程安排、文件检索等实际任务。其工具观测循环存在攻击面:攻击者可通过控制工具返回值嵌入恶意指令,从而劫持智能体行为。现有基准仅在固定条件下评估攻击成功率(ASR),忽略了三个关键维度:注入位置(注入深度)、Payload的修辞风格(框架)以及智能体允许的轮次数量(轮次上限)。作者针对五个攻击类别设计了20个场景,共进行460次试验,总API成本低于0.36美元。研究1显示,GPT-4o-mini的ASR从深度1的60%衰减至深度4和5的0%(Cramer's V=0.58, p<0.001);在深度1-3内,V=0.47, p=0.0013,表明深度是主导变量。研究2中,Claude Haiku在所有深度均实现0% ASR,归因于其保守的工具调用和指令抵抗能力。研究3发现,框架调节可使深度1的ASR在25%(中性)到75%(人格化)之间变化,但未达到统计显著性(每组N=20)。研究4确认ASR在轮次上限3、5、7下稳定,表明轮次预算不是风险因素。结论指出,仅清理第一个工具观测值即可捕获67%的注入成功。该研究为设计更安全的智能体系统提供了重要见解。
💡 推荐理由: 揭示了ReAct智能体在工具调用深度上的关键脆弱性,为防御者提供了量化风险依据,并指出清洁首个工具响应可有效防御。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Brian Crawford, Patrick McClure
该论文研究了面向软件逆向工程的多智能体系统在分析二进制可执行文件时面临的提示注入攻击威胁。攻击者可将恶意注入字符串嵌入源代码或编译产物中,当AI代理解析反编译输出时触发异常行为。作者首先展示了如何利用现有反编译器检测被篡改后的可执行文件中的注入字符串,并系统评估了多种检测方法的有效性,包括基于正则表达式、特征签名以及机器学习分类器的方案。随后,论文重点探索了攻击者可能采用的混淆技术,如代码流平坦化、指令替换、字符串加密等,使注入内容更难被静态分析捕获。针对这些混淆手段,作者又提出了相应的防御策略,包括动态污点追踪、语义哈希过滤以及上下文感知的提示清理机制。实验基于一组公开的恶意软件样本和人工构造的对抗样本进行,结果表明:在无混淆场景下,基于上下文的检测器可达到95%以上的召回率;面对中等强度的混淆,综合使用静态与动态检测能将准确率维持在85%左右;而高度混淆的对抗样本仍能绕过部分检测,形成约10-20%的漏报率。论文最终指出,当前技术尚无法完全消除此类攻击风险,但通过多阶段检测与输入规范化,可大幅降低实际运营中的威胁。该工作对将AI代理部署到生产环境的逆向工程平台、安全分析流水线及漏洞挖掘系统具有直接指导意义。
💡 推荐理由: AI代理辅助逆向工程正逐步进入企业端安全运营流程,但提示注入攻击可导致代理给出错误结论甚至执行恶意动作。本文首次系统揭示了该场景下的攻击链与防御基线,为蓝队评估自身AI系统的健壮性提供了具体参考。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nima Dorzhiev, Peng Liu
本文针对大型语言模型(LLM)智能体面临的提示注入攻击,提出了一种增强的多态提示组装(PPA)防御方法。原始的PPA通过从固定池中随机选择分隔符对来隔离用户输入与系统指令,但存在静态池复用导致的“爆炸半径”漏洞:一旦某个分隔符泄露,可在后续请求中被利用。作者提出动态、按请求生成分隔符的方法,利用基于时间戳、会话标识符和加密随机数的域分隔SHA-256摘要,为每个组装提示生成唯一的(BEGIN, END)金丝雀对,从而将泄露暴露限制在单个请求内。在Llama-3.3-70B-Instruct-Turbo模型上针对16种注入载荷进行评估,并在DeepSeek-V4-Flash模型上进行跨模型验证。针对M1混淆载荷(leet speak加紧迫性),动态模式将攻击成功率(ASR)从0.88降至0.38,实现2.3倍的缓解效果,且95% Wilson置信区间无重叠,具有统计显著性。针对format_breakout_salad攻击,静态模式下的分隔符泄露率(0.467)在动态模式下完全消除(0.000),证实了爆炸半径的减小。该实现无需模型微调,每个请求仅增加2.7微秒的提示组装开销,且向后兼容现有PPA SDK。该研究为LLM智能体安全提供了实用、高效的防御增强方案。
💡 推荐理由: 提示注入攻击是LLM应用的核心威胁,本文提出的动态分隔符生成方法在不牺牲性能的前提下显著降低攻击成功率,并消除静态池复用漏洞,对部署LLM智能体的团队具有直接防御价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin
该论文研究了工具增强型大语言模型(LLM)代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面(如工具输出)并报告一个固定的攻击成功率(ASR),但作者指出工具描述(tool descriptions)是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述,攻击者同样可以在此处植入恶意指令。为了验证这一假设,作者保持注入载荷(payload)字节级一致,通过工具输出和工具描述两个表面,在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现,相同的payload在不同模型上的成功率呈现出镜像反转模式:例如,GPT-4.1在工具输出表面具有96%的成功率,但在工具描述表面仅为4%;而Gemini 3 Flash则相反,分别为20%和98%。方差分解显示,攻击表面的独立贡献为0%,而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道,而是模型-表面的配对属性。为此,作者提出了自适应攻击率(Adaptive Attack Rate, AAR),即取所有表面上每个模型-任务的最高成功率,平均比最强固定表面基线高出9.1个百分点。进一步实验发现,标准的提示级防御(如过滤、指令对抗)继承了同样的盲点:它们能将工具输出表面的ASR降至10-18%,但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见,强调防御和评估必须报告每个表面的脆弱性。
💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设,指出安全评估必须覆盖所有攻击表面(如工具描述),否则将严重低估风险。对于构建LLM代理的团队,这是必须知晓的设计盲点。
🎯 建议动作: 纳入内部评估,要求安全测试覆盖工具输出和工具描述两个攻击表面;重新审视现有防御策略的有效性。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Anany Kotawala
本研究揭示了大型基础语言模型在预训练阶段可能无意中记忆了公开的数值基准数据(如金融因子、经济指标、气候数据),导致基于时间截断的评估实际上测量的是模型的记忆能力而非泛化能力。作者提出了 NumLeak 测量框架,该框架结合了对生产环境闭源模型的 API 边界探测(黑盒)和开放因果语言模型的白盒受控验证。实验表明,顶级前沿模型(如 Claude、GPT-4 等)在 Fama-French 市场超额收益等因子上达到 3-seed 池化 Pearson r=0.97-0.99,且五个兄弟因子的波动控制在 25 基点以内;类似的记忆精度也出现在美国失业率、CPI 通胀和 NOAA 温度数据上。然而,当使用最近发布的新数据(holdout)进行测试时,模型解析率骤降至 21-57%,但一旦成功回答,相关性仍保持在约 0.99,这种“拒绝-回忆”不对称性正是记忆通道的典型特征。白盒实验复现了剂量反应关系,并且 logprob 排序能够检测到开放文本生成中遗漏的记忆痕迹,这表明闭源 API 黑盒探测可能会低估该记忆通道的存在。进一步,作者测试了情绪回归任务:Sonnet 模型基于日期预测市场情绪,与真实 Mkt-RF 的相关性为 r=0.74,但在剔除模型自身回忆的数值后,相关性骤降至 r=0.02,证明输出主要由记忆驱动。作为防御,作者提出了一行系统提示指令,在几乎不降低概念和历史查询性能的情况下,阻断了 99.8% 的非自适应单轮后缀攻击。该研究对依赖模型数值输出的金融、经济、气象等应用领域具有重要安全启示,提示开发者和安全团队需重视预训练数据污染带来的记忆泄露风险。
💡 推荐理由: 该研究首次系统量化了大型语言模型对公开数值基准的记忆泄露程度,揭示了评估中隐蔽的漏洞。对安全分析师而言,这意味着模型输出的数值(如金融预测)可能只是训练数据的复述,而非真正的推理能力。攻击者可通过精心设计的 prompt 诱导模型泄露敏感训练数值(如经济指标或内部基准),从而损害基于模型的应用可信度。
🎯 建议动作: 研究跟进,评估自身 LLM 应用对数值记忆泄露的脆弱性,并考虑引入类似的一行系统提示防御,同时对高敏感性数值输出实施额外审查。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mohan Zhang, Yuqi Jia, Zhen Tan, Steven Jiang, Neil Zhenqiang Gong, Tianlong Chen, Dawn Song
本研究首次系统性地测量了大型语言模型(LLM)在实际应用中的提示注入攻击威胁,聚焦于广泛使用的LLM简历筛选系统。研究基于hireEZ公司收集的约20万份真实简历数据,时间跨度数年。作者首先设计了专门针对简历文本的提示注入检测方法,通过在小规模数据集上的人工验证,证明其检测器精度高,且优于现有通用检测器。然后,将检测器应用于全部简历数据集,进行了大规模的测量分析。关键发现包括:约1%的简历包含隐藏的提示注入;此类注入简历的流行程度在过去一至两年内显著增加;超过90%的注入提示不使用显式指令(例如“忽略之前指令”),而是采用隐晦的自然语言操控。这些结果首次提供了LLM实际应用中大规模提示注入攻击的证据,揭示了该威胁在现实世界中的普遍性和增长趋势,为未来理解和缓解此类攻击奠定了基础。该研究对LLM安全研究者、AI应用开发者和安全运营团队具有重要参考价值。
💡 推荐理由: 首次基于真实世界大规模数据证实LLM应用(简历筛选)中提示注入攻击的普遍性(约1%),且攻击手法隐蔽(90%以上无显式指令),威胁正快速上升。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Ruoqi Guo, Yi Liu, Gelei Deng, Yiheng Xiong, Yuekang Li, Ying Zhang, Leo Yu Zhang, Lida Zhao, Ji Jie, Yuxiao Lu
该论文提出了一种针对移动图形用户界面(GUI)代理的新型提示注入攻击方法,命名为MIRAGE(Mobile Injection of Realistic Adversarial GUI Examples)。移动GUI代理通常由视觉-语言模型(VLM)驱动,它们通过分析屏幕像素来感知界面,并基于所见内容选择操作,因此无法可靠地区分受信任的界面元素和用户生成的内容。MIRAGE利用这一弱点,在不修改代理、应用程序或操作系统的情况下,通过将攻击者控制的文本嵌入到普通的用户生成内容区域(如评论区、输入框等),将良性移动截图转化为提示注入样本。管道分为三个阶段:首先,定位器(Localizer)识别截图中的用户可控区域;其次,生成器(Generator)合成上下文相关的对抗性负载,并以应用程序的原生样式渲染到这些区域;最后,审查器(Curator)对生成样本的真实性进行过滤,并在不同应用、区域类型和攻击意图之间保持平衡。一个关键挑战是,注入后的截图必须在视觉上与真实的用户内容难以区分,同时仍能成功诱导代理执行恶意操作。通过在包含10个应用和11种攻击意图的1111个样本基准上测试,所有五种被评估的VLM代理均存在漏洞,攻击成功率在23%至30%之间。此外,与先前最先进的攻击方法相比,MIRAGE生成的截图在人类真实性评估中得分更高(满分为5分,MIRAGE得3.02,先前方法得2.52)。研究还发现,单个样本的真实性与攻击成功率之间不存在相关性,因此仅依靠视觉质量过滤无法可靠地防御此类威胁。该工作揭示了移动GUI代理面临的新型安全风险,并为后续防御研究提供了基础。
💡 推荐理由: 移动GUI代理(如智能助手、自动化测试工具)正快速普及,MIRAGE展示了一种隐蔽的提示注入攻击,威胁代理的可靠性和用户安全。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Yin, Shuai Wang, Bevan Koopman, Guido Zuccon
该论文重新评估了生成式引擎优化(GEO)中的提示注入攻击在真实检索增强生成(RAG)系统中的有效性。先前的研究表明,通过提示注入可以将目标产品推至LLM推荐列表的顶部,成功率约80%,但假设被攻击的文档始终直接输入生成器,忽略了检索器和重排序器。本研究在更现实的三个阶段管道(检索器→LLM重排序器→LLM生成器)中评估了七种GEO攻击。发现之前的协议严重高估了攻击效果:基于梯度和指令覆盖的攻击在到达生成器之前基本失效,只有基于LLM的提示注入在端到端中仍然有效。进一步分析表明,当前的GEO攻击很容易被检测:一个在小型攻击数据集上微调的轻量级提示注入防护器即可检测所有攻击。论文提供了代码和数据。
💡 推荐理由: 揭示了当前GEO攻击在真实RAG管道中的有效性被高估,并指出了可被轻量级防护器检测的弱点,对RAG系统的安全评估与防护设计具有指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Akindoyin Akinrele, Shreyank N Gowda
本文针对大型语言模型(LLM)面临的提示注入攻击威胁,提出了一种部署感知的评估框架,用于比较多种检测方法在不同部署条件下的表现。现有检测方法通常在有限设定下评估,未反映真实操作约束。作者构建了多模型、多场景的实验框架,涵盖词法、语义、结构以及基于Transformer的检测器,并在多种分布外设置、重复数据划分以及排名和阈值化部署指标下进行评估。论文引入了可解释的结构信号,用于捕捉层次覆盖、系统提示欺骗、角色重定义和规避模式等攻击特征,并评估了这些信号在稀疏模型中以及结合强编码器基线时的贡献。实验结果表明,检测性能高度依赖于部署场景,且对阈值选择敏感,没有任何单一模型在所有设定下表现最优。基于Transformer的模型整体性能最强,结构信号在特定场景下提供了适度但一致的优势,并在更困难的任务中改善了低误报率情况。这些发现揭示了排名性能与部署有效性之间的差距,强调了在实际操作约束下评估提示注入防御的重要性。代码将开源。
💡 推荐理由: 提示注入是LLM安全部署的核心威胁。本文首次系统评估了检测方法在不同部署条件下的性能差异,揭示了排名指标与实际部署效果的鸿沟,为安全工程师选择或设计检测方案提供了关键指导。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peiran Wang, Ying Li, Yuan Tian
本研究针对基于大语言模型(LLM)的代理在工具调用中面临的间接提示注入攻击问题。现有防御方法要么在工具调用层面进行值检查而不追踪参数来源,要么从单一视角分析执行痕迹而缺乏干净的授权基线。作者提出 AuthGraph,一种双图对齐防御框架,构建两个互补图:注入推理图(从实际执行轨迹中建模信息来源,包括可能被操纵的归属)和授权图(从用户在隔离干净上下文中的意图推导,信息论上不可能受注入影响)。通过图对齐检查器结构比较两图,检测工具级和参数来源级偏差。在 AgentDojo 基准上,AuthGraph 将攻击成功率从 40% 降至 1%,同时保持 GPT-4o 上 76% 的任务完成率;在 AgentDyn 上,攻击成功率从 39% 降至 2%,效用保持 51%,优于 CaMeL、DRIFT 和 Progent 等现有防御。据作者所知,AuthGraph 是首个在参数来源层面结构比较授权规范与执行来源的代理安全防御,实现了细粒度注入检测且不牺牲代理灵活性。
💡 推荐理由: 首次在参数来源层面对比授权与执行来源结构,显著降低 LLM 代理面对间接提示注入的攻击成功率,同时保持实用性。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Faruk Alpay, Taylan Alpay
该论文提出了 AgentSecBench,一个用于系统性评估大型语言模型(LLM)代理安全性的实证基准框架。LLM 代理在处理可信指令、检索记录和工具观测时,所有信息均通过同一个生成通道,导致数据流与权限混淆:即使应用策略未授权,不受信任的字符串也可能影响包含机密的响应或操作提议。AgentSecBench 基于一个形式化安全框架,定义了三个安全博弈:指令完整性、检索机密性和能力完整性,统一在“意图到执行无干扰”概念下,并允许特定的可泄露信息。该框架将应用策略表示为对授权观测和能力的投影,区分提示标注与强制投影,并衡量对抗优势以及防御是否在生成前关闭相关的模型可见通道。实验采用了精确标记(exact-marker)的方法,作为博弈的一种可观测实例,而非完整的语义安全声明,测试了泄露和禁止动作区分器,具有明确的真值基准。作者使用 Qwen3-0.6B 和 Qwen3-1.7B 模型,对六类防御方法进行了配对对抗性和良性控制执行实验。测量结果表明,当通道关闭时风险降低,但模型可见的对抗能力在某些情况下仍然可利用。最终成果是一种面向安全的评估方法:提示文本可以描述边界,而来源投影、能力限制和输出验证可以强制实施边界。该研究为 LLM 代理的安全评估提供了可量化的方法论,适合安全研究人员和 LLM 应用开发者阅读。
💡 推荐理由: LLM代理在实际应用中面临提示注入、隐私泄露和工具滥用等严重威胁,现有评估缺乏统一框架。AgentSecBench提供了可量化的安全评估方法论,能帮助防御者识别代理系统的薄弱环节,推动更安全的代理设计。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yue Liu, Yanjie Zhao, Yunbo Lyu, Ting Zhang, Haoyu Wang, David Lo
这篇论文研究了一种针对Agentic AI编码助手的新型安全威胁。Agentic AI编码助手(如GitHub Copilot、Cursor等)能够代表开发者执行文件编辑、命令运行、互联网访问等操作,显著提升开发效率。然而,它们对外部工件(如代码仓库中的README、配置文件、第三方库文档等)的依赖引入了一个危险的攻击面:攻击者可以在这些外部工件中嵌入隐藏的指令(即prompt injection),当AI助手读取并处理这些内容时,这些恶意指令会劫持助手的原始意图,迫使它执行未授权的操作,例如下载恶意软件、修改代码、泄露敏感信息、甚至授予攻击者远程控制权限。论文首先系统阐述了此类攻击的工作原理:攻击者利用AI助手对自然语言指令的过度信任,在看似无害的文本中注入特殊标记或指令,使助手将其解释为系统级命令。作者通过实验测量了该类攻击的普遍性,发现许多流行的AI编码助手在默认配置下容易受到攻击。接着,论文分析了现有防御机制(如输入过滤、权限限制、提示词隔离等)的局限性,指出它们要么容易被绕过,要么会过度限制助手的正常功能。最后,作者提出了未来的研究方向,包括设计更鲁棒的提示词沙箱、开发基于异常检测的运行时监控、以及建立安全审计标准。该研究首次系统性地揭示了Agentic AI编码助手的安全漏洞,对AI辅助开发的安全实践具有重要指导意义。
💡 推荐理由: Agentic AI编码助手正被广泛采用,但现有研究多关注其功能性,忽视了其作为恶意指令执行通道的风险。本文揭示了一个可被利用的攻击面,提醒安全社区必须重新审视这类工具的信任模型,否则开发者将无意中成为攻击者的代理。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Becky Mashaido, Tapadhir Das
该论文揭示了当前基于检测的提示注入防御中存在的一个根本性盲区:高分类性能并不等同于表征鲁棒性。作者发现,当攻击者同时使用多种混淆操作(如同形字符替换、零宽字符插入、标点符号或表情符号噪声)时,被混淆的提示在预训练语言模型的嵌入空间中会部分坍缩到干净提示的流形上,这种现象被命名为“潜在嵌入坍缩”。实验基于多个不同深度和容量的BERT系列编码器进行,尽管所有检测器在分类任务上都达到了近乎完美的性能,但干净提示与混淆提示之间的最小边际距离仅为1.02,表明两者在潜在空间中几乎完全重叠。此外,混淆嵌入的类内方差高达3.33±6.23,远高于干净嵌入,显示出严重的潜在空间不稳定性。这些结果明确地表明存在一个“性能-鲁棒性差距”:标准评估指标完全无法捕获这种几何脆弱性。更值得注意的是,增加模型容量并不能缓解嵌入坍缩问题。因此,作者呼吁必须引入几何感知的鲁棒性分析作为当前基于性能评估的必要补充。该研究为安全社区敲响了警钟,提示现有的自动化防御可能在高精度掩蔽下存在结构性脆弱点。适合LLM安全研究人员、嵌入空间分析者以及防御系统设计者阅读。
💡 推荐理由: 该研究首次明确指出高检测性能可能掩盖严重的嵌入空间脆弱性,警告安全从业者不应仅依赖分类准确率来评估提示注入防御,必须重视几何鲁棒性分析。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongjang Yang, Hyunsik Na, Daeseon Choi
本文针对基于大型语言模型(LLM)的聊天机器人代理,研究了一种通过间接提示注入实现隐私泄露的攻击链。研究背景是:LLM代理通过结合自然语言推理和外部工具(如网页浏览)来处理用户请求,这提升了可用性,但也带来了安全风险,因为不可信的外部内容可能被纳入处理流程。作者聚焦于黑盒环境,即攻击者无法访问模型权重、系统提示或代理实现细节(包括查询处理过程中的轨迹管理方式)。首先,作者分析了攻击者如何通过构造看似无害但实际诱导代理执行攻击者定义目标的外部内容,来劫持代理的原始任务。然后,提出了一种新的提示注入技术——"exemplification"(示例化),该技术利用外部内容中的“桥梁”,将用户提示和检索页面的良性开头重新构造为少量示例,随后附加攻击者的目标。作者将其攻击成功率与先前的伪造补全(fake-completion)技术进行了比较。最后,在受控环境中使用虚构个人信息演示了概念验证的数据外泄链。结果表明,提示注入、越狱式指令引导和网页工具调用可以组合成一条可行的隐私泄露路径,即使在部署的聊天机器人代理中也可能实现。该研究为理解和防御此类攻击提供了实证基础。
💡 推荐理由: 揭示了LLM聊天机器人在处理外部内容时面临的新型隐私泄露风险,特别是通过间接提示注入实现的数据外泄链,对使用LLM代理的企业和开发者具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lei Zhao, Abhay Bhaskar, Edgar Dobriban
该论文提出了 LivePI(Live Prompt Injection),一个针对 AI agent 间接提示注入风险的基准测试框架。随着 OpenClaw 等 AI agent 被部署在本地工作流中并访问外部工具,间接提示注入(IPI)风险日益突出:agent 可能执行嵌入在不受信任输入(如电子邮件、下载文件、网页、代码仓库、群聊消息)中的有害指令。现有的评估通常规模较小、纯模拟或仅聚焦于少数输入渠道。LivePI 在近似生产环境但测试可控的虚拟机上运行,覆盖了七种输入表面(电子邮件、聊天、网页、本地文件、代码仓库、钱包等)、十二种攻击/渲染类型以及五种恶意目标,包括受保护信息窃取、未经授权的安全控制更改、不安全代码检索或执行、收件箱摘要窃取以及加密货币转账。研究在真实的虚拟机环境中对多个模型进行了测试,包括 GPT-5.3-Codex、Claude Opus 4.6、Gemini 3.1 Pro、Kimi K2.5 和 GLM-5,总攻击成功率在 10.7% 到 29.6% 之间。值得注意的是,群聊注入在所有测试骨干模型中均成功,仓库链接攻击虽样本较少但导致高严重性失败。论文还评估了一种双层防御机制,包括提示级过滤和执行前工具调用授权。在 GPT-5.3-Codex 设置下,该防御在 LivePI 中拦截了所有测试的恶意目标完成,同时保持了在 PinchBench 衍生工作负载上的良性实用性能。该工作为 AI agent 的安全评估提供了更现实的基准,并强调了多通道 IPI 风险的普遍性。
💡 推荐理由: AI agent 正被广泛应用于自动化工作流,其访问外部工具的能力带来了严重的间接提示注入风险。LivePI 提供了首个覆盖多输入表面、近似真实环境的基准测试,揭示了当前顶级模型的脆弱性,对 agent 安全建设具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yash Narendra
该论文针对现代AI助手面临的提示注入(prompt injection)威胁,提出了一种名为ESLD(External Surrogate Latent Defense)的潜在空间防御架构。在智能体(agent)场景中,语言模型需要从多个来源(如网络搜索、检索文档、工具输出等)获取信息,攻击者可能在这些输入中嵌入恶意指令,从而劫持助手行为。现有防御方案通常在助理模型前部署独立的“守卫模型”(guard model),守卫模型读取输入文本并输出“安全/不安全”的判决。然而,在多步智能体任务中,每一步都调用守卫模型会造成严重的延迟瓶颈。论文的核心发现是:守卫模型在输出判决之前,其内部隐藏表示(latent representation)已经包含了区分安全与恶意输入所需的信号。因此,直接读取该潜在信号可以绕过完整的前向推理,显著加速安全检查。实验结果表明,ESLD平均将安全检测速度提升3倍以上,同时检测准确率平均比守卫模型直接输出的判决高16.4个百分点。这不仅是一种延迟优化,更使得原本因速度受限无法在智能体每一步都运行的守卫检查可以部署在关键路径上,且准确率更高。ESLD是一种模型无关的架构,可叠加在任何现有守卫模型之上,无需重新训练或修改原模型。该工作主要贡献在于揭示了内部表征的判别能力,并设计出实用的加速与性能提升方案。适合AI安全研究人员、大模型部署工程师及对抗性机器学习从业者阅读。
💡 推荐理由: 提示注入是智能体AI面临的关键安全挑战,该工作提出了一种即插即用的防御加速方案,能在不牺牲准确率的前提下大幅提升检测速度,有助于推动防御机制在实时场景中的实际部署。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sahar Abdelnabi, Eugene Bagdasarian
本文聚焦于AI代理中最关键的提示注入漏洞。作者首先指出现有的主流防御策略(数据-指令分离)存在根本性缺陷:它既无法检测通过上下文操纵(如误导性背景信息或角色扮演)发起的攻击,又会降低代理在正常场景下做出符合上下文的适当行为的能力。为了更系统地理解这一困境,作者引入隐私理论中的情境完整性(Contextual Integrity, CI)框架来重新定义提示注入。CI理论强调信息流动必须符合特定社会情境的规范,据此可将攻击划分为三种类型:(1)误述流程——攻击者谎报信息来源或目的;(2)操纵规范——攻击者改变用户对合法行为的期望;(3)混合多个流程——攻击者同时在多个上下文中注入指令。通过构造具体的良性实验场景,作者证明任何防御策略都无法同时保证安全性与可用性:攻击者总能构建一个上下文使得被屏蔽的流看起来合理,而防守方若收紧规范则会拒绝大量合法请求。这一发现揭示了“不可能结果”:提示注入无法被彻底消除,只能被管理。因此,当前基于指令-数据分离的研究路线只能应对未来攻击面中日益缩小的一部分。作者提出,CI框架为评估上下文敏感的安全失效提供了原则性方法,并为设计CI感知的对齐机制(如动态上下文审查和规范学习)指明了方向。论文适合AI安全研究人员、LLM应用开发者以及关注自主代理安全的工程师阅读。
💡 推荐理由: 该论文从根本上挑战了当前提示注入防御的基础假设,指出数据-指令分离范式存在不可克服的局限性,并引入情境完整性理论预测了未来更复杂的攻击形态。对构建安全代理系统的从业者具有重要警示意义。
🎯 建议动作: 纳入内部风险评估,建议安全团队阅读原文并评估其理论对现有防御体系的冲击,考虑引入情境完整性分析框架到安全设计中。
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Udari Madhushani Sehwag, Zhengyang Shan, Heming Liu, Dileepa Lakshan, Joseph Brandifino, Max Fenkell
本文研究了大型语言模型(LLM)代理(agent)在寻求澄清(clarification-seeking)行为下的安全性问题。澄清行为通常被视为代理的理想属性,允许其在执行不明确任务前先解决歧义。然而,作者发现这种交互模式会显著增加代理对提示注入攻击(prompt injection)的脆弱性。为此,他们提出了ASPI(Ambiguous-State Prompt Injection)基准测试,包含728个任务-攻击场景,专门将澄清作为一个独立的代理状态,并在受控条件下比较执行状态和澄清状态下的脆弱性差异。每个基准实例在匹配的执行和澄清设置下进行评估:执行设置中,代理基于完全明确的指令行动,仅通过工具返回的数据接触对抗内容;澄清设置中,代理必须先请求并整合额外的用户输入才能行动。作者评估了10个前沿LLM,发现澄清行为一致且显著地放大了脆弱性。例如,对于o3模型,攻击成功率从1.8%上升到34.0%;对于Gemini-3-Flash,则从2.2%上升到35.7%。分解分析表明,这种差距既反映了模型处理传入内容时的状态依赖性转变,也源于代理主动请求澄清接口带来的通道特定效应。这些发现表明,标准执行时的安全评估系统性地低估了交互式代理的攻击面,且在完全指定任务下的鲁棒性并不能转化为歧义状态下的鲁棒性。论文数据和源代码已公开。
💡 推荐理由: 揭示了LLM代理的澄清行为会显著放大提示注入攻击的风险,对当前依赖代理交互的AI应用(如客服、工具调用)构成实际威胁,提醒安全从业者需重新评估代理在歧义状态下的安全防护。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma
本文提出一种针对大型视觉语言模型(LVLMs)的新型跨模态提示注入攻击方法CrossMPI。传统提示注入攻击通常局限于单一模态(如仅文本或仅图像),无法实现跨模态的提示扰动,即注入的提示只能影响模型对单一输入的解释。CrossMPI通过图像仅扰动实现跨模态注入,能够同时操纵模型对文本和视觉输入的解释。其核心创新在于将注入提示的扰动优化目标从视觉嵌入空间(约10^5参数)转向模型隐藏状态空间(约10^7参数),该空间负责多模态信息整合,从而增强攻击效果。为解决大参数空间优化带来的挑战,作者提出两项策略:一是层选择策略,识别对多模态整合最关键的网络层;二是距离递减扰动预算分配策略,根据像素与语义关键区域的距离递减分配扰动预算。实验表明,该方法在多个LVLMs和数据集上显著优于基线方法。本文揭示了LVLM在跨模态安全性方面的潜在漏洞,适合安全研究人员、多模态AI开发者及对抗攻击研究者阅读。
💡 推荐理由: 该研究首次实现仅通过图像扰动就能同时影响LVLM对文本和图像的解释,拓展了提示注入的攻击面,对多模态AI系统的安全部署构成威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi
本文针对 Web Agent 在开放网络环境中面临的提示注入攻击风险,提出了一种鲁棒防御模型 WARD。Web Agent 可通过与网站交互自动完成在线任务,但其依赖的 HTML 内容或视觉界面易被嵌入恶意指令,导致提示注入攻击。现有防护模型存在泛化能力差(对未见领域及攻击模式识别率低)、对良性内容误报率高、引入额外延迟影响部署效率、且难以应对随时间演化的对抗攻击等问题。为解决这些局限,作者构建了 WARD-Base 大规模数据集(包含来自 719 个高流量 URL 和平台的约 17.7 万样本),以及专门针对防护模型本身的提示注入攻击数据集 WARD-PIG。在此基础上,提出 A3T(自适应对抗攻击训练框架),通过基于记忆的攻击者与防护者协同进化过程迭代增强 WARD 的鲁棒性。大量实验表明,WARD 在分布外基准上实现了近乎完美的召回率,同时保持低误报率以保障 Agent 可用性;在遭遇针对防护模型的攻击和自适应攻击时,仍能在显著分布偏移下保持鲁棒;并且可与 Agent 并行运行,不引入额外延迟。该研究为 Web Agent 的安全部署提供了实用且高效的防护方案。
💡 推荐理由: 随着 Web Agent 在自动化任务中广泛应用,提示注入攻击成为严峻威胁。WARD 提出了首个兼顾高检测率、低误报、高效率和抗对抗攻击的防护模型,对保障 LLM 驱动的 Agent 安全至关重要。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chia-Pei, Chen, Kentaroh Toyoda, Anita Lai, Alex Leung
本文提出并实现了 IPI-proxy,一个开源的红队测试工具包,专门用于评估 Web 浏览型 AI 代理对间接提示注入(IPI)的防御能力。当前企业环境中,AI 代理通常被限制访问白名单域,但攻击者仍可通过在合法域中嵌入隐藏指令来实施 IPI 攻击。现有红队资源存在不足:预构建的对抗页面不在白名单范围内,而通用 LLM 扫描器仅探测模型 API 而非其检索的内容。IPI-proxy 的核心是一个拦截代理,它在运行时实时重写来自白名单域的 HTTP 响应,嵌入攻击载荷。该工具从六个公开基准(BIPIA、InjecAgent、AgentDojo、Tensor Trust、WASP 和 LLMail-Inject)中提取了 820 个去重的攻击字符串,形成统一库。YAML 驱动的测试框架独立参数化载荷集、嵌入技术(HTML 注释、不可见 CSS 或 LLM 生成的语义散文)和 HTML 插入点(6 个位置,从 head_meta 到 script_comment),无需模拟页面或沙盒环境即可进行参数扫描评估。此外,附带的外泄跟踪器记录成功回调。论文详细描述了威胁模型、设计决策和配置接口,旨在连接静态基准和实际部署,为 AI 安全团队提供可重复的评估基底,以测量和增强代理对 IPI 的防御能力。
💡 推荐理由: 该工具填补了现有红队测试空白,能真实模拟攻击者在生产环境中利用白名单域进行间接提示注入的场景,帮助安全团队在代理实际运行时评估和提升其鲁棒性。
🎯 建议动作: 纳入内部评估
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Farzad Nourmohammadzadeh Motlagh, Mehrdad Hajizadeh, Mehryar Majd, Pejman Najafi, Feng Cheng, Christoph Meinel
该论文针对大型语言模型(LLM)驱动的应用中自然语言接口带来的SQL注入风险,提出了一种多层级安全框架。随着LLM被广泛用于将用户自然语言查询自动转换为SQL语句(Prompt-to-SQL),传统的SQL注入攻击方式得以进化:攻击者可以构造对抗性提示(adversarial prompts),引导模型生成恶意SQL查询,从而绕过基于查询字符串校验的传统防御。论文框架由三层组成:前端安全盾(Front-end Security Shield)负责对用户输入进行净化,过滤明显恶意内容;高级威胁检测模型(Advanced Threat Detection Model)利用行为和语义异常分析识别更隐蔽的攻击;特征签名控制层(Signature-based Control Layer)匹配已知攻击模式。研究团队构建了包含提示注入、混淆SQL负载、上下文操控等多样攻击场景的基准数据集,并在微调后的LLM上进行了全面评估。实验结果显示,该框架在保持低误报率的前提下实现了高检测准确率,显著提升了LLM驱动的数据库应用的安全性。论文贡献在于首次系统性地分析了LLM场景下SQL注入的新形态,并提出了一个实用的、可扩展的防御框架,为基于LLM的数据查询应用的安全部署提供了技术参考。
💡 推荐理由: LLM驱动的自然语言查询数据库正快速普及,但Prompt-to-SQL过程放大了SQL注入风险,现有防御未能覆盖。该论文系统揭示了该攻击面并提供了可落地的多层检测框架,对安全团队构建AI应用防护有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001
本研究聚焦于大语言模型(LLM)代理中的工具选择机制面临的提示注入攻击威胁。LLM代理通常通过调用外部工具来扩展其能力,例如搜索引擎、计算器或数据库查询。工具选择是代理根据用户指令和上下文自动决定调用哪个工具的关键步骤。研究者发现,攻击者可以通过精心构造的提示,操纵代理选择恶意工具或绕过安全限制,从而引发数据泄露、权限滥用等风险。论文系统性地分析了这类攻击的原理,提出了一种基于对抗性提示的威胁模型,并设计了多组实验验证攻击的可行性和影响。实验表明,当前主流LLM代理(如基于GPT-4、LLaMA等)的工具选择模块在面临针对性提示注入时表现出脆弱性。作者进一步讨论了防御策略,包括输入净化、上下文隔离和工具使用权限最小化等。该研究揭示了LLM代理安全性的新维度,为开发更健壮的代理系统提供了理论基础和实用建议。适合AI安全研究员、LLM应用开发者及安全工程师阅读。
💡 推荐理由: 随着LLM代理广泛应用,工具选择环节的安全隐患可能成为攻击者控制代理行为的突破口,导致敏感数据泄露或恶意操作。本研究率先系统性分析该威胁,对防御策略设计具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Reachal Wang, Yuqi Jia, Neil Zhenqiang Gong
本文提出了一种针对多源数据LLM应用的新型提示注入攻击方法ObliInjection。在现实场景中,LLM的输入数据往往来自多个不同来源,每个来源贡献一个输入段,攻击者仅能控制其中部分段,且通常不知道各段在输入中的排列顺序。现有的提示注入攻击要么假设整个输入数据来自单一攻击者控制的来源,要么忽略多源数据中段顺序的不确定性,因此在多源场景下成功率有限。ObliInjection通过两项关键技术创新解决这一挑战:一是“顺序无关损失”(order-oblivious loss),该损失函数量化了无论干净段和污染段如何排列,LLM完成攻击者选定任务的可能性;二是“顺序GCG算法”(orderGCG),专门设计用于最小化顺序无关损失并优化污染段的内容。实验涵盖了三个不同应用领域的数据集和十二种LLM,结果表明即使只污染输入中6-100个段中的一个,ObliInjection也能高效实施攻击。论文提供了代码和数据开源链接。本研究揭示了多源数据LLM应用中一个被忽视的安全漏洞,对LLM安全防护具有重要参考价值。
💡 推荐理由: 提示注入是LLM安全的核心威胁之一,而多源数据场景普遍存在于各类LLM Agent和工具链中。ObliInjection首次系统地研究了段顺序不确定下的注入攻击,该攻击隐蔽性强且成功率较高,对依赖多源输入的LLM应用构成实际风险。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shihao Weng, Yang Feng, Jinrui Zhang, Xiaofei Xie, Jiongchi Yu, Jia Liu
随着大型语言模型(LLM)代理的兴起,其通过集成工具调用、技能和外部知识,显著提升了自动化能力,但也引入了新的安全风险。其中,提示注入攻击(Prompt Injection)已成为主要威胁:攻击者将恶意指令嵌入代理工作流中,劫持代理行为。然而,现有基准测试和防御机制存在根本性局限——它们假设代理在完全指定的用户指令下工作,攻击是直接且与上下文无关的。这种假设无法反映真实部署场景,其中代理行为通常依赖动态的上下文信息(如多轮对话、环境状态),且攻击者可自适应地调整攻击策略。为弥补这一缺口,本文首先提出AgentLure基准,涵盖四个代理领域(如代码执行、网页导航等)和八个攻击向量,覆盖多种攻击面。评估表明,现有防御在上下文感知攻击下表现不佳。进而,本文提出ARGUS防御机制,通过构建影响溯源图(Influence Provenance Graph)来追踪不可信上下文如何传播至代理决策,并在执行前验证决策是否基于可信证据。具体而言,ARGUS对代理的每个动作进行审计,分析其输入来源(用户指令、工具输出、外部知识等),通过溯源图判定决策是否被不受信上下文污染。实验结果显示,ARGUS将攻击成功率降低至3.8%,同时保持87.5%的任务效用,显著优于现有防御,且能抵御自适应白盒攻击。这项工作为安全部署LLM代理提供了关键理论框架和实用方法。
💡 推荐理由: LLM代理在自动化任务中广泛应用,但现有防御仅针对简单提示注入,无法应对利用动态上下文的复杂攻击。ARGUS首创了基于溯源图的决策审计机制,为保护企业级代理系统免受上下文感知攻击提供了可行方案。
🎯 建议动作: 研究跟进,评估ARGUS机制在自身LLM代理系统中的应用可行性,并考虑集成溯源图审计模块。
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mingshuo Liu, Yiwei Zha, Min Chen
本文提出了一种名为 PIIGuard 的网页级防御机制,旨在缓解大型语言模型(LLM)助手在浏览网页时从公共页面中抓取联系型个人身份信息(PII)的风险。现有的防御措施大多部署在模型层、服务层或智能体层,而普通网页所有者缺乏可行的部署选项。PIIGuard 通过重新利用间接提示注入作为保护手段:网页所有者嵌入优化的隐藏 HTML 片段,引导模型避免逐字或可重建地披露联系 PII。该方法利用基于规则的泄漏评分、进化变异和最终基于评估器的可恢复性评估来搜索片段文本和插入位置。在直接 HTML 评估中,针对 GPT-5.4-nano、Claude-haiku-4.5 和 DeepSeek-chat(最新 v3.2)三个目标模型,PIIGuard 在基于规则和基于评估器的泄漏评估下至少达到 97.0% 的防御成功率,通常达到 100.0%,同时保持了良性同页面问答的效用。进一步评估了两种更难的设置:公共 URL 浏览和攻击方对抓取网页的 LLM 清洗。结果表明,页面侧防御片段在部署中对于某些模型-位置对仍然有效,但鲁棒性在不同浏览界面和清洗提示之间差异很大。总体而言,PIIGuard 证明网页所有者可以使用页面侧片段作为网络接地 PII 泄漏的实际缓解措施。
💡 推荐理由: LLM 助手从公开网页中无意识抓取个人联系信息已成为现实威胁。PIIGuard 首次提出由网页所有者主动嵌入防御片段的方法,为无法控制模型或服务层的个人或组织提供了低成本、可部署的 PII 泄露防护手段。
🎯 建议动作: 研究跟进,评估在自有网站或客户网站上部署类似防御片段的可行性。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes
本文揭示了一种针对闭源大语言模型(LLM)的新型攻击威胁,攻击者能够通过微调接口实现基于优化的提示注入攻击。研究指出,LLM厂商提供的远程微调API允许开发者针对特定任务对模型进行微调,但同时也暴露了损失函数类信息(loss-like information),攻击者可利用这些信息指导对抗性提示的搜索。作者以Gemini微调API为例,实验表征了其返回的损失函数值,并证明这些信号能够通过贪心搜索算法有效支持对抗性提示的离散优化。在PurpleLlama提示注入基准测试中,针对Google Gemini系列LLM的攻击成功率达到了65%至82%。该攻击本质上利用了实用性与安全性之间的经典权衡:微调接口为开发者提供了便利,但也使LLM暴露于更强大的攻击之下。研究成果提醒安全社区关注LLM微调接口作为攻击面的风险,并呼吁设计更安全的微调机制。
💡 推荐理由: 揭示LLM微调接口可被用于进行基于优化的提示注入攻击,攻击成功率高达82%,突破了传统工程化提示注入的限制,为LLM供应链安全敲响警钟。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia
该论文提出 FlashRT,首个针对长上下文大语言模型(如 Gemini-3.1-Pro 和 Qwen-3.5)中提示注入和知识破坏攻击的优化红队框架。现有基于优化的红队方法虽然攻击效果好,但计算和内存开销巨大,尤其对于长上下文场景(如 32K token 的上下文需要 264 GB GPU 内存),阻碍了社区尤其是学术研究者对 LLM 安全风险的系统评估。FlashRT 通过设计高效的梯度计算和内存管理策略,显著降低资源消耗。实验表明,与基线 nanoGCG 相比,FlashRT 实现 2x-7x 的加速(例如将运行时从一小时降至十分钟以内)和 2x-4x 的 GPU 内存降低(例如将 32K token 上下文的 GPU 内存从 264.1 GB 降至 65.7 GB)。该框架可泛化应用于其他黑盒优化方法(如 TAP 和 AutoDAN)。论文开源了代码(https://github.com/Wang-Yanting/FlashRT),旨在为社区提供高效的红队工具,支持系统化评估长上下文 LLM 的安全性。适合 LLM 安全研究者、红队测试工程师及关注 LLM 对齐与防御的从业人员阅读。
💡 推荐理由: 长上下文 LLM 安全评估因高昂计算成本而受限,FlashRT 大幅降低门槛,使学术界和中小团队也能进行系统化红队测试,推动 LLM 安全研究普及。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengyao Du, Han Fang, Haokai Ma, Jiahao Chen, Kai Xu, Quanjun Yin, Ee-Chien Chang
本文研究了基于截图的Web代理(screenshot-based web agents)面临的提示注入攻击(prompt injection attacks)威胁。这类代理通过渲染的视觉页面而非结构化文本来与网页交互,使得现有的基于文本的防御措施失效。尽管已有基于多模态的检测方法,但它们通常依赖大型视觉语言模型(VLM),导致高昂的计算开销(推理时间长、GPU内存占用大)。作者观察到,被注入恶意内容的网页在视觉和文本上均表现出与良性网页不同的特征。基于此,提出SnapGuard,一种轻量级的提示注入检测方法,将问题转化为对网页截图的模态表示分析。SnapGuard利用两个互补信号:(1)视觉稳定性指标(visual stability indicator),通过检测由恶意内容引起的异常平滑梯度分布来识别异常;(2)通过对比极性反转(contrast-polarity reversal)技术恢复的面向动作的文本信号(action-oriented textual signals)。实验在8种攻击场景和2种良性设置下进行,结果表明SnapGuard的F1分数达0.75,优于GPT-4o-prompt,同时推理速度提升8倍(1.81秒 vs 14.50秒),且无额外内存开销。该工作为资源受限环境下的Web代理安全防护提供了可行的轻量化方案。
💡 推荐理由: 对于部署基于截图Web代理的SOC团队,该研究提供了一种低开销的提示注入检测手段,无需依赖重型VLM,大幅降低推理延迟和资源消耗,有助于实时防御。
🎯 建议动作: 研究跟进,评估其与现有Web代理框架的集成可行性
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)
[MOCK] 研究: Rethinking Detection of Prompt Injection in Agentic Systems
💡 推荐理由: 此研究可能为防御侧带来新的建模或检测视角, 建议跟进 abstract 对应方向。
🎯 建议动作: 研究跟进, 评估是否引入到内部防护链。
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)