#rag 主题 - Cyber Security Daily Radar

👥 作者: Daekwon Pi, Sangho Lee, Young Hun Lee, Huy Kang Kim

该论文提出GARAGE，一个基于检索增强生成（RAG）的框架，旨在解决当前自动化工具在处理非结构化网络威胁情报（CTI）和汽车行业特定架构细节方面的不足。GARAGE将分散的CTI转化为可操作的领域特定知识库，用于自动生成攻击图。具体地，它合成了12,786个CVE和140个事件报告，构建了一个符合STIX 2.1和Auto-ISAC ATM标准的知识库。通过细粒度的杀伤链分析，形式化战术模式级别的场景，实现了威胁生成能力。论文通过320次留一实验（Leave-One-Out）证明，该框架能够将安全知识准确迁移到完全未见过的车辆架构上。此外，GARAGE被定位为一种可扩展的TARA（威胁分析与风险评估）支持工具，适用于人机协同工作流程，并提供了全面的成本-性能分析以指导其在不同LLM层级上的部署。

💡 推荐理由: 该工作填补了汽车行业CTI自动化分析的空白，为安全分析师提供了一种可扩展的、基于LLM的攻击图生成方法，有望提升车载网络安全评估的效率和准确性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xingfu Zhou, Pengfei Wang, Yuan Zhou, Wei Xie, Xu Zhou

本文针对多跳检索增强生成（RAG）智能体提出了一种新型攻击面——显著性通道（Salience Channel）。不同于已有的内容投毒（注入虚假事实）和提示注入（嵌入指令），显著性攻击通过调整事实的位置、强调、框架和语义接近性来重定向智能体的推理链，即使所有检索到的声明均为真且无附加指令。作者形式化了“显著性诱导”（Salience Induction）为保持事实真实性的编辑操作，使多跳属性绑定发生偏转，同时保持检索痕迹的语义完整性。定义了六类显著性编辑算子（包括位置移动、强调标记、框架重写等），并构建了在事实性和隐蔽性约束下的迭代提议-验证流水线。提出了SalientWiki-MH基准，包含带有干扰项的多跳问答数据集。在GPT、Claude、Gemini、DeepSeek、Qwen五个前沿模型家族以及ReAct、Reflexion、工具调用三种智能体架构上的实验表明，在30%的编辑预算下，显著性诱导的攻击成功率达到83.3%；现有最强基线防御后仍有75.7%的攻击成功率。无目标重写虽能降低攻击，但会损害中性任务成功率。作者提出轻量级输入侧防御方法“显著性归一化”（Salience Normalization），在标准攻击下将攻击成功率降至15.3%，在自适应攻击下降至23.6%。结果证明仅依赖事实性和指令过滤不足以保证安全，鲁棒的智能体RAG系统还需防御显著性-相关性解耦攻击。

💡 推荐理由: 揭示了RAG智能体安全中仅关注内容真实性和指令过滤的盲区，首次系统性地研究了通过操纵信息显著性来攻击多跳推理的方法，对构建安全可靠的自主智能体系统具有重要警示意义。

🎯 建议动作: 研究跟进，评估自身RAG系统对显著性诱导攻击的脆弱性，并考虑集成显著性归一化防御

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Avital Shafran, Roei Schuster, Vitaly Shmatikov

检索增强生成（RAG）系统通过从知识数据库中检索相关文档，并利用大型语言模型（LLM）处理这些文档来回答查询。本文发现，当RAG系统操作包含不可信内容的数据库时，容易受到一种称为“jamming”的拒绝服务攻击。攻击者可以向数据库中添加单个“blocker”文档，该文档会在特定查询时被检索，导致RAG系统无法回答该查询，表面上是因为缺乏相关信息或回答不安全。作者描述并测量了多种生成blocker文档的方法，包括一种基于黑盒优化的新方法。该方法（1）不依赖于指令注入，（2）不需要攻击者了解目标RAG系统使用的嵌入或LLM，以及（3）不使用辅助LLM。作者在多种嵌入和LLM上评估了jamming攻击，并证明现有的LLM安全指标无法捕捉其对jamming的脆弱性。最后，讨论了针对blocker文档的防御措施。本文的核心贡献在于揭示并量化了RAG系统在面对恶意文档时的拒绝服务风险，提出了一种通用的攻击生成方法，并对现有安全评估的不足进行了批判。

💡 推荐理由: RAG系统广泛应用于企业知识库和问答服务，本文揭示的jamming攻击可导致关键功能拒绝服务，且攻击者无需特殊权限或了解内部模型，实际威胁较大。现有安全指标未能有效预警，需引起防御者重视。

🎯 建议动作: 研究跟进：评估使用的RAG系统是否易受jamming攻击，并参考论文中讨论的防御策略进行加固

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gang Zhang, Mingyu Tian, Xukun Luan, Yuanchi Ma, Jinyan Liu

检索增强生成（RAG）通过外部文档检索增强大型语言模型的能力，但检索到的上下文可能泄露敏感信息。现有隐私保护方法通常基于文档级静态风险假设，即认为所有检索文档具有相同的隐私泄露风险。然而，这一假设忽略了RAG的一个基本特征：文档的隐私风险高度依赖于用户的查询，使得隐私泄露本质上是查询驱动的、动态的。为了解决这一挑战，本文提出了一种用于隐私保护RAG的提示感知动态层次差分隐私框架（PA-HDP）。PA-HDP首先执行提示感知的风险层次划分，动态评估不同查询下的隐私风险；然后应用自适应敏感实体替换和基于指数机制的文本选择，在保留语义效用的同时提供差异化的隐私保护。通过仅保护给定查询下真正敏感的内容，PA-HDP最小化了对检索语料库的不必要修改。在基准数据集上的大量实验表明，PA-HDP在保持高检索质量的同时显著降低了隐私泄露，实现了比先前方法更好的隐私-效用权衡。本文适用于对RAG隐私保护、差分隐私、以及大语言模型安全感兴趣的研究人员和工程师。

💡 推荐理由: 首次明确提出RAG中隐私风险的查询依赖性，并设计动态保护机制，突破静态假设局限，对提升RAG系统实际部署中的隐私安全性具有重要参考价值。

🎯 建议动作: 研究跟进：深入阅读论文，评估其在自身RAG场景中的适用性，并考虑集成动态隐私风险评估机制。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Om Solanki, Lopamudra Praharaj, Deepti Gupta, Maanak Gupta

本文针对面向战场物联网（IoBT）任务控制的策略感知大语言模型检索增强生成（PA-LLM-RAG）框架，首次系统研究了知识库投毒攻击及其防御。作者提出了一种新颖的“查询无关语义检索投毒”（Query-Agnostic Semantic Retrieval Poisoning）攻击方法，该方法向IoBT知识库中注入精心构造的语义规则，无需知道运行时用户提示即可在所有操作员查询类型上获得高检索排名。实验表明，单条注入规则（投毒率仅1.6%）即可实现85%的LLM上下文污染，投毒率饱和点为7.7%，证明即使极小的知识库破坏也足以篡改任务决策。为应对此威胁，作者提出了CLD-KB（基于网络分层防御的知识库保护）框架，一种双重检测器异常检测方案，结合One-Class SVM边界检测和创新的“基于成员的类别扩散分析”（Member-Based Category Spread analysis），利用IoBT策略的三分类体系，在决策LLM之前识别被投毒的规则。CLD-KB在投毒检测和知识保留上显著优于DBSCAN、LOF、K-Means、孤立森林和One-Class SVM五种基线方法，每次任务仅增加7ms计算开销，证明其作为LLM驱动的IoBT任务系统中高效、可边缘部署的防御方案的有效性。该研究揭示了RAG系统在关键领域的独特安全漏洞，并提供了实用的防御思路。

💡 推荐理由: 首次系统研究面向RAG知识库的语义投毒攻击，揭示低投毒率即可实现高污染率的关键威胁，并提出轻量级可边缘部署的双重检测防御，对LLM在关键任务场景（如军事、医疗）的安全落地有重要警示意义。

🎯 建议动作: 纳入内部评估：建议AI安全团队在自研RAG系统或采购LLM服务时，测试知识库投毒攻击的影响，并评估CLD-KB防御的适用性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chanwoo Choi, Euntae Kim, Kyuho Lee, Youngsam Chun, Jinhee Jeong, Eunmi Kim, Myunggyo Oh, Junseo Jang, Buru Chang

检索增强生成（RAG）系统容易受到投毒攻击，攻击者通过注入恶意文档来操纵模型输出。近期出现的智能体RAG（Agentic RAG）系统通过迭代执行检索与推理，能够忽略弱相关的投毒文档并保持由用户查询引发的推理链，从而对此类攻击表现出更强的鲁棒性。然而，现有针对智能体RAG系统的攻击通常假设白盒访问系统提示、推理轨迹、检索器或模型参数，这限制了它们在现实场景中的适用性。本文研究了针对智能体RAG系统的黑盒投毒攻击，即攻击者仅能发布可被外部检索的投毒文档。作者提出了KidnapRAG，一种顺序投毒攻击方法，利用三种角色特定的文档劫持智能体的多步推理链：Bait文档用于吸引初始检索，Chain-Link文档诱导查询重构，Mal-Ins文档提供攻击者控制的证据。在多种智能体RAG框架、LLM后端和基准测试上的实验表明，KidnapRAG在黑盒条件下持续优于现有的投毒基线。进一步的分析显示，KidnapRAG逐步削弱原始检索意图，重定向检索行为，并增加对攻击者控制证据的依赖。该研究的核心贡献在于：首次系统性地探索了针对智能体RAG系统的黑盒投毒攻击；提出了一个高效的顺序攻击框架；通过实验验证了其有效性并分析了攻击机理。代码已开源。该研究对RAG系统的安全性提出了新的挑战，提醒开发者注意智能体推理链的脆弱性，并考虑设计更鲁棒的防御机制。

💡 推荐理由: KidnapRAG首次揭示了智能体RAG系统在黑盒场景下仍易受投毒攻击，打破了此类系统更鲁棒的普遍认知。它不依赖系统内部信息，仅通过发布恶意文档即可劫持推理链，严重威胁依赖RAG的LLM应用安全，如客服、问答系统等。

🎯 建议动作: 研究跟进，建议开发针对投毒文档的检测与过滤机制，或在推理链中引入验证步骤。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yan-Lun Chen, Pin-Yu Chen, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文针对检索增强生成（RAG）系统面临的语料库投毒攻击问题，提出了一种轻量级检测框架TRACE。RAG系统通过检索外部文档来增强大语言模型的生成能力，但攻击者可向检索库中注入恶意文档，诱导模型输出特定目标答案。现有检测方法通常依赖额外的分类器或基于LLM的验证，计算开销较大。TRACE通过令牌影响归因（token influence attribution）来识别投毒攻击：首先在所有检索到的文档中寻找具有高影响力的重复关键词（recurrent high-influence keywords），这些关键词可能是攻击者植入的触发词；然后进行二次验证，确认这些关键词对模型预测的实质性影响。该方法无需训练辅助模型或调用外部LLM，仅需分析模型内部的梯度或注意力信号。实验在三个问答基准数据集（如Natural Questions、TriviaQA等）和六个主流LLM（包括GPT系列、LLaMA等）上进行，结果表明TRACE能够有效检测投毒攻击，且计算开销远低于对比方法。此外，TRACE还能揭示攻击者指定的目标答案，为后续防御提供线索。该工作为RAG系统的安全性提供了一种实用且高效的检测方案。

💡 推荐理由: RAG系统在工业界广泛部署，语料库投毒攻击威胁其可信输出。TRACE提供了一种轻量级、无需额外模型的检测方法，可集成到现有流水线中，提升安全水位。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Balamurugan Palanisamy, G S S Chalapathi, Vikas Hassija, Rajkumar Buyya

本文是一篇关于检索增强生成(RAG)系统安全与隐私的综合性综述。RAG通过将外部知识库与大型语言模型结合，显著提升了事实性和适应性，但也引入了传统语言模型威胁之外的新风险。论文首先介绍了RAG的典型架构，包括集中式、设备端(Micro-RAG)、联邦式和混合式部署范式，并系统梳理了检索、上下文构建和生成三个阶段的安全威胁面。威胁分类涵盖了成员推断、索引推断、投毒攻击、梯度泄露和合谋攻击等。在防御方面，论文分析了架构、算法和密码学防御手段，并讨论了隐私-效用权衡及部署考虑。最后，论文指出了构建可信RAG系统的开放研究挑战。该综述适合安全研究员、AI从业者和系统设计者阅读，以全面理解RAG特有的风险及防御策略。

💡 推荐理由: RAG系统正被广泛应用于企业搜索、问答机器人等场景，但检索与生成组件的耦合引入了新型攻击面。本文首次系统化该领域的威胁与防御，有助于蓝队提前识别风险并设计安全架构。

🎯 建议动作: 阅读全文以获取威胁分类与防御技术细节，并评估自身RAG系统的风险暴露。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Juho Park, Hyunmin Choi, Kevin Nam

本文研究了针对基于检索增强生成（RAG）的AI安全代理的知识投毒攻击。随着安全代理越来越多地依赖RAG从外部知识源（如CVE报告、CTF write-ups）获取漏洞分析和利用推理信息，攻击者可以通过注入恶意构造的write-up（称为Poisoned Playbooks）来操控代理的行为。作者在11个CTF挑战、3个先进LLM系列（含2代模型）和11个真实CVE上进行了系统实验，发现投毒效果具有系统性而非随机性：多数情况下，代理会采纳被投毒的信息并产生错误的行为。为解释这一现象，作者提出了验证边界（Verification Boundary, VB）的概念，这是一个三层次的经验分类，基于代理能够利用何种证据来反驳检索到的声明。此外，作者评估了验证提示（verification prompting）和多源检索（multi-source retrieval）两种防御措施，发现它们在存在强证据时有效，但在证据稀疏或零日条件下效果减弱。本文揭示了RAG安全代理面对知识污染时的脆弱性，并为设计更鲁棒的防御策略提供了理论基础。

💡 推荐理由: 揭示了AI安全代理在依赖外部知识时面临的新型投毒风险，对构建可信的自动化安全工具具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Aniket Wattamwar, Mrunal Kakirwar

本文提出了一种名为 π-RAG 的新型架构，旨在解决传统检索增强生成（RAG）系统中向量嵌入暴露于潜在反转攻击和非确定性检索失败的问题。核心创新在于利用数学常数 π 的数字作为超然熵源，构建一个不可变的间接层，将大型语言模型（LLM）与敏感数据存储解耦。具体而言，π-RAG 引入了一个语义量化层，将用户输入投影到预计算的典范意图质心（Canonical Intent Centroids）流形上，然后通过密码盐将质心映射到确定性偏移量，生成指向实际数据存储中标准化载荷的 π-key。这种设计从数学上保证了推理过程对数据的 oblivious（不可知），同时结合了确定性随机性、可审计性和差分隐私特性。实验表明，该架构在高合规性领域（如金融、医疗）具有高效性，能够在不牺牲语义理解的前提下实现隐私保护。论文的主要贡献包括：提出了一种新颖的 oblivious 检索方法，利用π的固有属性替代传统向量相似度搜索；设计了语义量化层以减少检索不确定性；并通过理论分析证明了其安全性。适合关注 LLM 隐私保护、数据安全和高合规性应用的研究人员与工程师阅读。

💡 推荐理由: 该架构为 LLM 隐私计算提供了新思路，利用数学常数π实现不可变间接层，有望在金融、医疗等敏感场景中安全地部署 RAG 系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Prashant Kumar Pathak, Tarun Kumar Sharma

该论文针对检索增强生成（RAG）系统中存在的向量中心（hubness）投毒风险提出了一种轻量级的准入时防御方法。在RAG中，少量文档可能成为大量查询的最近邻，这种“中心”现象使得攻击者可以通过注入一份恶意文档影响多个不相关请求的回答，构成数据投毒攻击。现有防御依赖于周期性的逆k近邻扫描，存在暴露窗口且需要重复扫描整个语料库，效率较低。作者研究了在文档插入阶段进行控制的方法：通过一组哨兵查询（sentinel queries）对每个待插入文档进行评分，隔离那些具有中心化特征的文档，从而在写入前阻断潜在投毒。在包含10万文档的两个语料库上，使用五种不同编码器，并在攻击者和防御者查询集不重叠的条件下，全局门控（global gate）在关键嵌入空间点达到召回率1.0（有效范围内≥0.92），对HotFlip攻击的召回率为0.91±0.07，对常规文档的误报率仅1%。按主题的局部门控（per-topic gate）则无可靠收益，这与各向异性耦合局部与全局可见性一致。阈值通过增量方式维护，插入成本与语料库规模无关，删除成本摊还。在HNSW索引上，准入控制使摄取延迟增加约3.1%，评分延迟在向量数达到百万级时仍保持平稳，近似索引导致的决策翻转仅占1.2%且不涉及攻击。论文还指出，对于自然或紧密领域的中心，溯源（provenance）可作为门控的补充。本研究适合RAG系统开发者、检索系统安全研究人员以及关注AI供应链安全的从业者阅读。

💡 推荐理由: 针对RAG系统投毒攻击提供了一种无需修改索引结构、在文档录入阶段即可生效的防御方案，填补了现有周期性防御的暴露窗口问题，实测高效且低误报，对工程落地有直接参考价值。

🎯 建议动作: 研究跟进，在内部RAG原型中复现并评估该方法的实际效果。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan

该论文针对检索增强生成（RAG）聊天机器人面临的提示注入攻击，特别是间接注入（通过污染知识库文档实现攻击），提出了一种三层防御框架。第一层（输入过滤层）使用基于规则的模式库和微调的语义异常分类器对用户输入进行筛查。第二层（上下文组装层）在执行上下文组装时，强制实施基于来源的指令层次结构，防止检索到的内容覆盖操作策略。第三层（输出审计层）在模型输出前，使用策略规则引擎和语义漂移检测器进行审核。此外，框架包含一个持续审计循环，聚合结构化日志并支持重新训练以适应新型攻击模式。该框架是模型无关的，作为中间件部署，无需修改底层LLM。在包含5,080个样本的测试集上，使用GPT-4o、Llama 3和Mistral 7B评估，攻击成功率（ASR）从71.4%降至11.3%，性能优于最佳单层基线27.3个百分点，优于已公开的护栏系统23.8个百分点，误报率仅4.8%，中位延迟开销61.2毫秒。消融实验证实三层提供互补保护，且组合效果超过各自贡献之和。

💡 推荐理由: 提示注入是LLM应用中最关键的漏洞（OWASP Top-1），而现有防御仅在单一阶段孤立防护。该论文提出了首个覆盖推理全管线的三层防御框架，有效降低了攻击成功率，为RAG系统的实际部署提供了可落地的安全方案。

🎯 建议动作: 建议内部评估该框架在自有RAG系统上的适用性，并参考其分层思想加固现有防御。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chandranil Chakraborttii, Jackeline García Alvarado, Sitora Abdulofizova, Shivanshu Dwivedi

本文针对检索增强生成（RAG）流水线中广泛使用的分层可导航小世界（HNSW）向量数据库，揭示了软删除操作的严重安全隐患。当用户请求删除数据时，系统通常仅将记录标记为已删除，而实际嵌入在磁盘上保持不变，这违反了GDPR第17条和HIPAA等数据擦除与保留法规。作者在三个HNSW实现上验证，通过直接访问存储层的原始索引文件（绕过API）即可物理恢复已删除的向量。利用无需领域微调的Vec2Text反转模型，在多个真实数据集上展示了该漏洞：在维基百科在世人物数据集（BLP）上成功恢复25.5%的准确人名和46.4%的地理位置（ROUGE-L 0.185）；在高度结构化的敏感数据（NIH Synthea数据集）上，患者年龄和性别的恢复率达到100%（ROUGE-L 0.290）；在软删除的图像嵌入上，组织病理学切片的组织分类准确率为100%（p=1.02e-07），面部嵌入的top-1身份恢复率达99%（p<0.01）。作为防御，本文提出了Epoch密钥轮换机制：对向量进行加密，删除时丢弃密钥。该机制将观察到的PII恢复率降至0%，处理500个已删除向量仅需2.5毫秒（约0.005毫秒/条），并生成ECDSA签名的加密证明作为删除事件的可审计记录。本研究适合向量数据库开发者、RAG系统构建者、隐私合规工程师以及关注数据持久性安全的研究人员阅读。

💡 推荐理由: 该研究揭示了HNSW向量数据库中软删除操作被忽视的安全风险，直接威胁GDPR/HIPAA合规性，并提出了高效、可审计的防御方案（Epoch密钥轮换），对保障RAG系统中的敏感数据隐私具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.8)

👥 作者: Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin

该论文针对检索增强生成（RAG）系统提出了一种新的模型中心攻击框架CAREATTACK，旨在通过编辑检索器模型而非操控语料库来注入恶意知识。RAG系统通常依赖外部知识库，现有攻击多通过构造恶意文本操纵语料库，但此类合成文本易被检测。CAREATTACK则直接攻击开源的密集检索模型，分为两个阶段：冲突感知检索器编辑和攻击保持锚点修复。第一阶段利用高效的闭式参数编辑技术，将恶意知识注入检索器，使其在检索时优先返回恶意文档，并通过基于图的冲突检测和参数编辑投影解决参数冲突，确保良性知识不受过度影响。第二阶段进行轻量级校准，消除对非目标提示的副作用，同时保持对目标提示的攻击有效性。论文在Qwen3-Embedding-0.6B和BGE-M3两个检索模型上，使用三个基准数据集进行实验，结果表明该方法能显著提升恶意文档在检索结果中的排名，并支持批量目标提示和文档的攻击。由于许多RAG系统基于开源检索模型构建，该工作揭示了实际攻击面，代码已公开。

💡 推荐理由: 该研究首次提出针对RAG系统检索器参数的模型中心攻击，不同于传统的语料库污染，具有更高的隐蔽性和可控性，迫使防御方关注检索模型本身的安全性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tarun Sharma

该论文聚焦于持久性 LLM 代理系统中的多会话记忆投毒（MSMP）攻击及防御。随着检索增强生成（RAG）代理广泛使用跨用户会话累积的持久记忆，攻击者可通过正常交互注入精心构造的记忆，当这些记忆被后续用户检索时，可操纵代理的响应，而无需修改模型权重或代码。现有防御如 RobustRAG 和 ReliabilityRAG 基于静态语料库，无法应对动态记忆；启发式过滤器则易被流畅的企业风格文本绕过。为此，作者提出了带签名记忆和平滑检索的 SMSR 框架，这是首个针对该场景提供认证鲁棒性边界的防御方案。SMSR 包含两个组件：组件1在写入记忆时添加 HMAC-SHA256 来源认证，阻止未签名的注入，实验中将未签名变体的攻击成功率从 93-100% 降至 0%；组件2在查询时应用随机记忆消融和基于裁决的多数投票，限制已认证对手的影响，针对单次注入的认证攻击，成功率被控制在 8.0%（95% CI [5.8, 10.9]），低于认证最坏情况。在端到端查询攻击中，SMSR 将成功率从 65.3% 降至 5.3%。理论方面，作者证明了无来源的检索时滤波器无法认证自适应注入，推导了组件2的超几何证书，并形式化了“一致少数效应”，即一致对抗答案在基于字符串的投票中可能作为数值少数获胜，而基于裁决的投票可消除该效应。实验涵盖 15 个企业场景（共 3150 次重复），干净查询的实用率在组件1下为 90%，组合后为 85%。该工作为持久记忆 LLM 系统的安全部署提供了重要理论基础和实践方案。

💡 推荐理由: 多会话记忆投毒是 LLM 代理面临的新兴攻击面，传统静态防御失效。SMSR 首次提供了可认证的鲁棒防御，对保护企业级 RAG 系统免遭持久记忆篡改具有里程碑意义。

🎯 建议动作: 研究跟进 SMSR 方法，评估集成到现有 RAG 持久记忆系统中的可行性，并考虑在写入记忆时添加来源认证。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pedro Pereira, Eva Maia, Isabel Praça, Adrien Bécue

检索增强生成（RAG）系统通过在推理时从外部知识源检索文档来增强大语言模型的生成能力，但这种对外部检索内容的依赖也引入了投毒攻击的脆弱性：攻击者可以通过注入对抗性文档来操纵检索过程和生成输出。本文通过一个涵盖432种配置的全因子实验研究，系统分析了RAG系统在投毒攻击下的鲁棒性。研究考察了数据集、检索器类型（BM25、密集检索、基于图的检索）、检索深度、数据库组成（仅投毒、投毒与干净混合、多个数据库）、分块策略（固定长度、按句子分割等）以及生成模型（如LLaMA、Mistral等）对检索层面指标（如检索命中率、召回率）和生成层面指标（如幻觉率、目标答案出现率）的影响。实验结果表明：检索器架构、数据集和检索深度是影响投毒暴露程度的最强因素；生成模型的选择和数据库组成对下游攻击成功率影响显著。具体来说，密集检索器和基于图的检索器相比BM25通常更鲁棒，而增大检索深度会显著增加检索到投毒段落的概率。研究还发现，在多个数据库中复制投毒内容会放大对抗性影响，而增加额外的干净来源则可以缓解这种影响。该工作揭示了RAG投毒脆弱性并非由单一组件导致，而是检索、生成和知识库配置之间相互作用的综合结果。

💡 推荐理由: 为RAG系统安全部署提供了首个系统性的因素分析，帮助安全从业者识别投毒攻击中最关键的配置变量（检索深度、检索器类型等），并指导防御策略的优先级。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hyunseok Paeng

本文揭示了基于检索增强生成（RAG）的大语言模型（LLM）推荐系统中一种可重复的安全训练失效模式，称为“注入悖论”。该现象表现为：嵌入在检索文档中的提示注入（prompt injection）非但没有帮助攻击者提升目标品牌推荐率，反而由于模型的安全训练特性，导致被注入的品牌推荐率显著下降，甚至低于无注入基线。在安全训练的Claude模型（如Claude Opus 4.6）上，即使语料库中该品牌的4个文档仅有1个包含注入，目标品牌的前2推荐率也从54%基线降为0（50次试验全部为零）。这种抑制效应不仅作用于被注入的文档本身，还会扩散至同一品牌的其他未修改文档。作者通过反事实实验和跨三个品牌的测试证实了这一方向性模式。值得注意的是，在GPT模型上观察到相反结果：相同注入反而增加了推荐率，表明不同模型系列对注入上下文的行为存在差异。这些发现提出了一种反向攻击场景的可能性：攻击者可能在竞争对手的文档中嵌入提示注入，利用模型的安全敏感性来抑制竞争对手的品牌。该研究对RAG系统的安全设计、提示注入防御策略以及LLM推荐系统的鲁棒性评估具有重要启示。

💡 推荐理由: 该研究揭示了一种新颖的注入攻击方向：攻击者可利用模型安全训练特性来压低竞争对手品牌推荐率，颠覆了传统上认为注入总是用于提升自身品牌的认知，为蓝队提供了新的对抗视角和防御切入点。

🎯 建议动作: 研究跟进：建议RAG系统开发者复现该现象，并评估自身模型在类似注入下的品牌推荐变化；考虑在检索阶段增加文档来源可信度验证或注入检测。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jianguo Zhu

检索增强生成（RAG）系统通常将用户查询、检索文档、元数据、系统标签和任务指令序列化为一个自然语言提示。本研究揭示了一种源权威边界失效模式：攻击者控制的检索文本可以冒充元数据、来源、权威或披露策略信号，这些信号对模型而言呈现为控制相关信息。作者将这种模式称为文档作者控制信号冒充（DACSI）。DACSI是间接提示注入的一个子类，采用非命令式、类元数据的载荷。其核心见解是：文档作者标签是数据，而非策略。命令式注入要求模型忽略、覆盖或违反策略；而DACSI则探索当RAG提示渲染将可信与不可信文本合并到同一自然语言通道时，不可信文档文本是否会被错误地归因为授权控制信号。作者在六种模型设置（DeepSeek V4 Pro、Qwen3.5-397B、DeepSeek V4 Flash、GPT-5.5、Gemini 3.1 Pro Low、GLM-4.7）下，结合不同的提示压力水平、注入基线、信号分类、RAG中介管道、系统控制探测、源权威归属探测以及合成金丝雀格式进行了评估。实验按模型制度解释证据：DeepSeek V4 Pro和Qwen3.5-397B提供了最清晰的正向提升（即易受攻击），DeepSeek V4 Flash是高风险设置，GPT-5.5和Gemini 3.1 Pro Low是强边界探测但仍存在选择性残留风险，GLM-4.7是饱和泄漏边界案例。结果表明，DACSI值得单独评估，因为它利用无命令的元数据/来源/策略表面，沿RAG特定源权威路径进行攻击，并且对源/通道分离有响应。源权威归属探测提供了行为归因证据，而非内部机制证明。该研究适合RAG系统开发者和安全工程师关注，强调了在提示渲染中区分可信与不可信来源的重要性。

💡 推荐理由: DACSI攻击成本低、易实施，利用了RAG系统将用户查询与检索文档混合到单一提示的设计缺陷，可绕过安全边界导致信息泄露或非授权操作。随着RAG在对话系统和企业搜索中的广泛应用，该攻击具有普遍威胁。

🎯 建议动作: 实验验证并评估自身RAG系统对该攻击的鲁棒性，考虑实施源/通道分离防御措施

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jinghuai Zhang, Pengyue Yu, Zhexiao Lin, Kunlin Cai, Fnu Suya, Yuan Tian

本文提出 ImageAuditor，一种针对基于图像检索增强生成（IRAG）系统的成员推理攻击（MIA）方法。IRAG 系统利用外部数据库中的参考图像来增强冻结的生成器，支持文本到图像（T2I）和问答（Q&A）任务。由于这些数据库通常不透明且内容来自网络爬取，版权所有者需要审计特定图像是否出现在数据库中。现有的针对单模态文本 RAG 的 MIA 方法无法直接迁移到 IRAG，主要面临两个挑战：一是跨模态检索，无法像文本 RAG 那样通过将目标内容注入查询来强制检索目标图像；二是判别信号提取，IRAG 中的 T2I 生成器输出图像而非文本答案，难以通过问题回答提取成员信号。为克服这些挑战，ImageAuditor 将每个攻击查询分解为检索段和提取段，并分别进行优化。在检索段，提出奖励引导的策略优化（RGPO）方法，通过从奖励排序的候选中更新随机策略来导航跨模态嵌入空间，并具有有限样本最优性保证以平衡探索与利用。在提取段，分析 MIA 评分的分布以协同设计提示策略和评分规则，并为 T2I 和 Q&A 任务推导出特定实例化。通过 K-means 聚类聚合多个查询的信号以做出可靠的成员判断。实验表明，ImageAuditor 在多种 IRAG 系统上仅需每个被审计图像 4 个查询即可达到超过 80% 的 AUROC，并且在各种设置下均表现鲁棒。

💡 推荐理由: 首次提出针对图像多模态 RAG 系统的成员推断攻击，为版权审计和数据泄露风险提供了新的评估工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuyang Gong, Miaokun Chen, Jiawei Liu, Zhuo Chen, Guoxiu He, Wei Lu, XiaoFeng Wang, Xiaozhong Liu

本文提出了一种针对检索增强生成（RAG）系统的新型攻击范式——话语级意见操纵。RAG系统通过结合外部语料库来增强大语言模型的回答，但这也引入了检索内容投毒的安全风险。现有攻击大多聚焦于单个查询或狭窄主题的局部查询集，实际影响有限且易于察觉。作者定义了话语级意见操纵威胁模型：攻击者通过构造一个语义查询网络，在多个主题相关的查询上协调操纵检索结果，诱导系统在整体多主题查询空间中产生连续的、目标导向的意见偏移。该威胁模型假设黑盒场景，攻击者只能通过投毒外部文档（即检索语料库）来影响系统输出，且受限于投毒预算。为此，作者提出DiscourseFlip，一种智能体驱动的图引导攻击方法。其核心思想是：将查询网络建模为图，利用图结构分析各节点（查询）的意见传播影响，动态分配有限的投毒预算到关键节点（文档），以最大化全局意见偏离。实验使用多个主题的RAG系统（如基于Llama2-7B的RAG）进行验证，结果表明DiscourseFlip能持续、高效地诱导目标意见偏移，在覆盖率和有效性上显著优于现有的基线攻击（如基于单一查询的投毒或随机投毒）。用户研究表明，被操纵后的回答不易被用户察觉。此外，系统分析发现当前主流的防御策略（如输入过滤、对抗训练）无法有效抵御这种话语级操纵，凸显了开发鲁棒自适应防御的紧迫性。本文主要贡献在于：（1）定义了RAG系统的新威胁模型；（2）提出了有效的图引导攻击算法；（3）揭示了现有防御的不足。适合RAG安全研究者、LLM应用开发者和安全分析师阅读。

💡 推荐理由: 揭示了RAG系统在话语级操纵下的新安全漏洞，现有防御几乎无效，直接影响大模型输出可靠性和用户信任。

🎯 建议动作: 研究跟进，评估内部RAG系统对分布式、多话题操纵的脆弱性，探索图结构检测与鲁棒检索策略。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jiachen Qian

检索增强生成（RAG）通过引入外部知识库来缓解大语言模型的幻觉问题，但同时也引入了语料库完整性的新攻击面。本文提出 SilentRetrieval，一种两阶段数据投毒攻击，能够在不破坏文档流畅性的前提下劫持 RAG 系统。第一阶段使用协调束搜索（Coordinated Beam Search），这是一种结合流畅性-相似性目标的多 token 联合优化方法，使被污染的宿主文档在保持低困惑度的同时仍然可检索。第二阶段使用上下文自适应触发器生成（Context-Adaptive Trigger Generation），利用冻结的 LLM 驱动轻量级触发器融合步骤，将操纵触发器嵌入文档内容。在单毒化文档每查询的评估设置下，使用合成目标答案，SilentRetrieval 在 Natural Questions 和 MS MARCO 数据集上分别实现了 84.6%/81.3% 的 HR@10 和 57.5%/54.8% 的 ASR-LLM，同时保持接近良性文档的困惑度。跨模型评估显示，在固定触发器生成器下对四种目标 LLM 仍有非平凡效果；针对包括 ColBERT 和商业嵌入模型在内的未见检索器的迁移测试，在相同注入语料协议下平均 HR@10 为 64.7%。在采样维基百科规模评估中，以 0.016% 的投毒比例仍保持 74.2% 的 HR@10。结合检索侧和生成侧的防御虽然显著降低了攻击成功率，但引入了延迟权衡。人工评估显示，与不流畅的基线相比，标记率更低，但在当前样本量下仍比良性内容数值上更可疑。该研究揭示了 RAG 系统在面对精心构造的对抗性文档时的脆弱性，并提示需要更鲁棒的防御机制。

💡 推荐理由: RAG 系统被广泛用于减少 LLM 幻觉，但本文展示了一种隐蔽的数据投毒攻击，能够以极低投毒比例劫持检索结果，影响输出安全性。对于构建 RAG 应用的安全团队，该研究揭示了现有防御的不足，需关注语料库完整性保护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yu Yin, Shuai Wang, Bevan Koopman, Guido Zuccon

该论文重新评估了生成式引擎优化（GEO）中的提示注入攻击在真实检索增强生成（RAG）系统中的有效性。先前的研究表明，通过提示注入可以将目标产品推至LLM推荐列表的顶部，成功率约80%，但假设被攻击的文档始终直接输入生成器，忽略了检索器和重排序器。本研究在更现实的三个阶段管道（检索器→LLM重排序器→LLM生成器）中评估了七种GEO攻击。发现之前的协议严重高估了攻击效果：基于梯度和指令覆盖的攻击在到达生成器之前基本失效，只有基于LLM的提示注入在端到端中仍然有效。进一步分析表明，当前的GEO攻击很容易被检测：一个在小型攻击数据集上微调的轻量级提示注入防护器即可检测所有攻击。论文提供了代码和数据。

💡 推荐理由: 揭示了当前GEO攻击在真实RAG管道中的有效性被高估，并指出了可被轻量级防护器检测的弱点，对RAG系统的安全评估与防护设计具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Syed Huma Shah

本文针对检索增强生成（RAG）系统中的缓存安全问题展开研究。现代RAG部署广泛使用缓存来降低token成本和时间至首token延迟（TTFT），其中前缀级KV复用已是标准做法，但输出级的语义答案缓存仍然脆弱：相似提示可能映射到不同正确答案，检索证据随语料更新而漂移，且存在对抗性碰撞攻击可劫持缓存响应。作者指出缓存答案复用的关键问题不在于如何更快复用，而在于何时复用是安全的。为此，他们提出GroundedCache——一种基于证据验证的缓存路由器，仅当四个廉价门控条件同时满足时才允许复用缓存答案：查询相似性、检索证据重叠、源版本有效性以及新检索证据对缓存答案的词汇（或基于评判器）支持。研究构建了一个六模态工作负载来压力测试缓存安全性而非仅关注命中率，并引入面向运营者的指标——不安全服务率（USR），即接收到错误缓存答案的查询比例。在2个数据集和12,000个真实LLM生成（使用vLLM和自动前缀缓存的Qwen2.5-7B-Instruct）上的实验表明，GroundedCache在HotpotQA的每个模态下将USR降至0.0%（而朴素缓存为15-35%），在mtRAG文档漂移下降至1.5%（对比51.5%），在对抗性模态下实现34倍减少，在其他mtRAG模态下减少3-10倍，同时端到端中位延迟保持在无缓存RAG基线的1.04-1.07倍。消融实验显示，词汇支持门控是两个数据集上的主要安全机制，其他门控以接近零成本提供深度防御。本文适用于RAG系统开发者、缓存设计者和安全研究者。

💡 推荐理由: 揭示了RAG中缓存答案复用的安全漏洞，提出一种轻量级验证机制，可显著降低不安全缓存服务率（USR），对保障RAG系统输出正确性至关重要。

🎯 建议动作: 研究跟进：评估将GroundedCache集成到现有RAG缓存栈的可行性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhe Yu, Wenpeng Xing, Gaolei Li, Shuguang Xiong, Hongzhi Wang, Xuyang Teng, Meng Han

该论文针对检索增强生成（RAG）系统面临的知识投毒攻击，提出了一种基于信息流控制的防御框架CORDON-MAS。研究发现，现有防御方法（如污染检测）存在监控-控制差距：模型能够检测到检索结果中的矛盾证据，但仍会基于被污染的文档生成有害输出。作者提出科登原则（Cordon Principle）：任何负责最终合成的智能体不得直接访问未受信任的自然语言证据。基于此原则，设计了CORDON-MAS框架，通过将证据提取、跨源审计和答案合成分离为具有非对称内存权限的独立智能体，从架构上强制实施信息流控制。在五个BEIR数据集上的实验表明，相比无防御的RAG系统，CORDON-MAS将攻击成功率降低了92.4%。该工作将RAG投毒问题从检测问题重新定义为信息流控制问题，为构建可信RAG系统提供了新思路。

💡 推荐理由: 首次揭示了RAG防御中监控-控制差距的存在，并提出将投毒防御从检测转向信息流控制的新范式，对保障基于RAG的高风险应用安全具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Mohammed N. Swileh, Shengli Zhang, Kai Lei

软件定义网络（SDN）因其集中控制架构而面临分布式拒绝服务（DDoS）攻击的严重威胁，特别是地毯式轰炸（Carpet-Bombing）DDoS攻击，这种攻击将恶意流量分散到多个目标以逃避传统检测机制。本文提出了一种基于检索增强生成（RAG）的框架，用于在SDN环境中实时检测和缓解此类攻击。该框架结合了接口级流量特征表示、语义嵌入生成、基于FAISS的相似性检索以及大语言模型（LLM）驱动的上下文推理，无需传统的监督模型训练或重训练即可对流量行为进行分类。为评估框架有效性，作者在多种地毯式轰炸DDoS攻击场景下进行了大量实验，涵盖不同攻击强度。同时，研究了两种流量表示策略：基于JSON的结构化表示和基于自然语言的表示（NLR），并使用了多个最先进的LLM。实验结果表明，该框架实现了高准确率和稳定的攻击检测性能，其中使用Gemma-4-31B-IT模型的配置取得了最强的整体检测效果。实时实验验证了该框架能够快速检测并缓解地毯式轰炸DDoS攻击，同时保持SDN网络稳定运行。研究成果凸显了将RAG机制与LLM相结合用于智能自适应SDN安全分析的有效性。

💡 推荐理由: 地毯式轰炸DDoS攻击难以被传统检测机制发现，而该研究首次将RAG和LLM结合用于SDN环境下的实时检测与缓解，为智能网络防御提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nguyen Linh Bao Nguyen, Wanlun Ma, Viet Vo, Alsharif Abuadbba, Minghong Fang, Jun Zhang, Yang Xiang

本文研究检索增强生成（RAG）系统中的成员推断攻击（MIA）问题。RAG通过将外部知识库引入LLM响应，有效减少幻觉，但同时也带来了新的隐私风险：攻击者可能通过模型输出推断检索语料库中是否存在特定文档，从而泄露敏感信息。现有MIA方法要么依赖于易被检测的模板化查询，要么需要大量非模板化但成本高昂的重复查询，实用性受限。本文提出MEntA（Membership Entailment Attack），一种查询高效且无需影子模型的成员推断攻击方法。MEntA利用自然语言蕴涵（entailment）最大化每次查询的信息增益：攻击者以低成本、广泛的信息寻求性问题进行提问，并度量模型回答与候选文档之间的蕴涵关系，从而判断文档是否被检索。该方法无需训练影子模型，也不需要大量查询预算。在NFCorpus、SCIDOCS和TREC-COVID三个数据集上的实验显示，MEntA仅需5次查询即可达到最高0.991的AUC，在同等条件下比现有方法提升0.20-0.50 AUC。同时，MEntA能够规避当前最先进的RAG防御机制，而现有检测器要么漏检MEntA，要么对良性查询误报率高。在成本方面，与同设置下的最新攻击相比，MEntA将总攻击成本降低至1/65。本文研究揭示了RAG系统中低成本隐私泄露的现实可行性，强调了对隐私感知检索和防御机制的迫切需求。适合安全研究人员、LLM部署者以及隐私工程师阅读。

💡 推荐理由: 本文揭示RAG系统存在低成本的成员推断攻击风险，仅需5个自然语言问题即可高精度推断语料库中是否存在特定文档，可能泄露企业机密或用户隐私数据。该攻击无需影子模型、查询量小且能逃避现有防御，对实际部署的RAG系统构成严重威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chengcai Gao, Zhihong Sun, Xiaochuan Shi, Qiufeng Wang, Chao Liang

本文针对检索增强生成（RAG）系统面临的安全威胁，提出了一种名为BiRD（双向排序防御机制）的新型防御方法。研究首先识别了现有防御手段（如基于语义分析或投票机制）的核心局限性：它们仅关注语义内容相关性，而忽略了由排序结构定义的检索上下文。通过对被毒化文档与良性文档的双向排序行为分析，作者发现了一个关键区分模式：被毒化文档的反向排序与查询的正向排序之间表现出显著更强的对齐性。利用这一发现，BiRD构建了一个双信号框架，其中正向排序用于评估语义内容相关性，反向排序用于量化排序上下文的一致性，从而同时实现了高效性和鲁棒性。在3个数据集、3种检索器和3种大语言模型上，针对2种攻击场景的广泛评估验证了BiRD的有效性。特别地，BiRD将PoisonedRAG攻击的成功率降低高达54%，同时将任务准确率提升高达56%，且平均额外延迟低于1秒。该工作为RAG系统的对抗性防御提供了新思路，适合研究对抗机器学习、RAG安全以及信息检索的学者和工程师阅读。

💡 推荐理由: RAG系统正面临日益严重的对抗性攻击，现有防御存在计算成本高或鲁棒性不足的问题。BiRD利用双向排序模式差异，以低延迟实现高防御效果，为实际部署提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Florian A. D. Burnat, Brittany I. Davidson

本文聚焦于多租户检索增强生成（RAG）服务中的隐私审计问题。现有RAG系统通常声称每个账户满足差分隐私（DP），即每个账户的查询对索引满足（ε_acc, δ_acc）-DP。然而，作者发现同租户下多个账户合谋（即同一租户的多个账户协调攻击其租户的索引）会导致隐私边界失效：对于高斯噪声检索，已知DP组合理论表明，合谋者的联合泄漏以Θ(√k·ε_acc)的速率无条件恶化。跨租户和外部合谋只有在显式访问控制失败（M4）时才会达到相同速率，否则这些场景的设计泄漏为零，属于架构审计而非DP审计。作者展示了一种实现该速率的攻击，并推导出针对RAG的成员推理攻击（MIA）预测，并通过实验验证。为了能够审计这种每个账户与联合隐私之间的差距，作者设计了第一个审计协议，该协议运行在未修改的RAG部署上，针对检索-分数通道（即每个账户DP保证实际覆盖的噪声-选择步骤）输出定量的（PASS, ε_audit）判定，而无需索引披露、流水线重新设计或模型权重暴露。生成通道隐私（即基于所选文档的LLM输出）被视为独立的审计谓词，应与此协议组合，但本文明确将其排除在外。该协议组合了通用密码学原语（Merkle账本、ZK函数应用证明、高斯噪声证明）与六个RAG特定原语（嵌入承诺、索引内容向量承诺、每个账户查询账本、噪声-选择证明、跨租户包含证明、合谋规模估计器），并支持封闭形式的审计边界和Rényi-DP矩会计追踪。

💡 推荐理由: 该研究揭示了多租户RAG系统中每个账户差分隐私声明的漏洞，即同租户多账户合谋可显著放大隐私泄漏，并提供了首个可部署的审计协议，有助于验证实际RAG服务的隐私承诺，对依赖RAG的云服务提供商和审计人员具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Osama Zafar, Alexander Nemecek, Yiqian Zhang, Wenbiao Li, Debargha Ganguly, Vikash Singh, Vipin Chaudhary, Erman Ayday

该论文针对检索增强生成（RAG）系统中的隐私泄露问题，指出传统PII过滤器容易忽略上下文数据泄露，例如通过非受管属性聚类可识别个人身份。作者提出了一种隐私政策执行（PPE）框架，采用双单类密度估计器，融合文本嵌入，并引入校准的拒绝区域以处理分布外输入。通过轴分层、多LLM合成数据流水线，在医学、金融和法律领域生成数据，发现传统高斯混合基线在边界安全压力测试中失败，因为它们关注语言风格而非内容。提出的T3+OCSVM检测器在安全和边界安全数据上训练，边界AUROC达到0.93以上，同时将误报率降低44-55个百分点，并保持毫秒级延迟。与有监督MLP分类器或14B参数LLM法官相比，该框架具有优越的操作适用性，前者拒绝率高，后者存在延迟和校准问题。该方法为任何合成数据训练的分类器提供了稳健的压力测试标准。

💡 推荐理由: RAG系统在敏感领域广泛应用，现有隐私保护手段无法处理上下文推断攻击，本工作首次提出针对性的轻量级隐私政策执行框架，具有高精度和低延迟，实用价值高。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peiru Yang, Haoran Zheng, Tong Ju, Shiting Wang, Wanchun Ni, Jiajun Liu, Shangguang Wang, Yongfeng Huang, Tao Qi

本文研究了多模态检索增强生成（RAG）系统在医疗应用中的安全性，重点关注知识投毒攻击。现有攻击大多假设攻击者掌握用户查询的先验知识，这在真实场景中难以实现。为此，作者提出了M³Att攻击框架，仅需了解数据库的有限分布知识。核心思路是：向文本数据中注入隐蔽的虚假信息，同时利用配对的视觉数据作为与查询无关的触发器，以操纵检索概率。攻击者通过向视觉输入施加不可察觉的扰动来改变检索结果，并利用医疗诊断的固有模糊性设计隐蔽错误信息注入策略，使模型生成临床看似合理但错误的诊断，同时规避大语言模型（LLM）的自我纠正。在五个LLM和数据集上的实验表明，M³Att能持续产生合理但错误的输出。该研究揭示了医疗多模态RAG系统的脆弱性，为防御机制设计提供了参考。

💡 推荐理由: 医疗RAG系统依赖外部知识库，若被投毒可能导致错误诊断，威胁患者安全。本攻击不依赖用户查询先验，更贴近真实威胁，值得安全从业者关注。

🎯 建议动作: 研究跟进，评估内部医疗RAG系统对此类攻击的脆弱性，并探索输入过滤、异常检测等防御机制。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kennedy Edemacu, Mohammad Mahdi Shokri, Vinay M. Shashidhar, Jong Wook Kim

本文提出了一种名为PAS（Privacy Anchor Substitution）的结构化机制，用于在空间检索增强生成（RAG）系统中实现用户位置隐私保护。与传统的差分隐私方法直接扰动用户位置不同，PAS采用相对锚点编码来表示位置，该编码由锚点、方向箱和距离箱组成，能够无缝集成到现代RAG流程中。研究团队在一个合成城市数据集上评估了PAS，实验结果表明，PAS能够实现约370-400米的敌方位置误差，提供较强的粗粒度隐私保证，同时保留了基线检索性能的一半以上。尽管检索性能略有下降，但下游生成质量在PAS下保持相对稳健，说明大型语言模型能够补偿不完美的空间检索。进一步的经验分析显示，PAS的隐私-效用关系相对于隐私参数呈非单调特性，作者将其归因于锚点离散化带来的几何偏差，这使其与连续噪声机制（如地理不可区分性）不同。研究结论表明，结构化空间表示为RAG系统中基于位置的推理提供了一种实用的隐私保护方法。该工作对于关注LLM应用中隐私保护的研究人员和工程师具有参考价值。

💡 推荐理由: 该研究为空间RAG系统中的用户位置隐私保护提供了新的结构化方法，避免了传统差分隐私对检索效用的过度破坏，对构建隐私保护的地理位置感知AI服务具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhiping Zhou, Xiaohong Li 0001, Ruitao Feng, Yao Zhang 0019, Yuekang Li, Wenbu Feng, Yunqian Wang, Yuqing Li

反编译是将机器码转换为人类可读形式的关键技术，广泛应用于软件安全分析、漏洞挖掘和逆向工程。然而，现有反编译工具生成的代码常存在语义失真，导致可读性和准确性下降。传统方法如变量重命名或结构简化仅能提供局部改进，缺乏对复杂闭源二进制文件中语义错误的系统性检测与纠正能力。本文提出 FidelityGPT 框架，通过结合检索增强生成（RAG）与动态语义强度算法，实现反编译失真的自动检测与修复。FidelityGPT 的核心创新包括：针对闭源场景设计的失真感知提示模板、基于动态语义强度的失真行定位算法、以及通过变量依赖分析缓解长上下文限制的机制。实验基于二进制相似性基准测试中的 620 个函数对展开，结果表明 FidelityGPT 的平均检测准确率达 89%，精确率为 83%。与当前最先进的 DeGPT（修复率 83%，修正修复率 37%）相比，FidelityGPT 分别达到 94% 的修复率和 64% 的修正修复率，显著提升了反编译代码的准确性和可读性。该研究展示了大型语言模型结合检索增强在反编译与逆向工程领域的应用潜力，适用于需要处理复杂闭源二进制文件的安全分析场景。

💡 推荐理由: 反编译是安全分析的基础，FidelityGPT 显著提升了反编译代码的语义准确性，直接帮助安全分析师更高效地理解闭源二进制程序，降低误判风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jayson Ng, Amin Milani Fard

该论文针对大型语言模型（LLM）在恶意软件分析中的应用进行了实证研究，重点评估检索增强生成（RAG）技术对解释质量的影响。研究背景是：安全分析师常借助LLM来自动总结和解释恶意软件行为，而RAG被认为可以通过注入外部安全知识来提升解释质量。作者以VirusTotal报告作为结构化输入，在多个LLM上对比了有无RAG时的解释效果。实验发现，RAG在大多数情况下反而降低了解释质量，具体表现为：引入分散注意力的弱相关上下文、增加叙述噪声或生成泛泛的写实性描述。这表明，当结构化安全证据已经足够时，RAG会产生反效果。作者因此提出，恶意软件解释本质上是信号提取任务，而非知识检索问题，并基于此给出了安全开发工作流的设计建议。该研究挑战了RAG在安全关键型管道中的普遍适用性，为未来设计更可靠的LLM辅助分析工具提供了重要参考。

💡 推荐理由: 揭示RAG在恶意软件解释中可能降低质量，挑战了常见假设，提醒安全从业者谨慎应用RAG于分析管道。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#rag

GARAGE: Characterizing the Automation Boundary in LLM-based Attack Graph Generation

Salience Induction against Multi-Hop RAG Agents: Threat and Defense

Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents.

Is External Database Protection Static in Retrieval-Augmented Generation? Rethinking Privacy Preservation under Dynamic Queries

Knowledge Base Poisoning Attacks and Defense for Policy-Aware LLM-RAG Framework

KidnapRAG: A Black-Box Attack for Hijacking Reasoning in Agentic Retrieval-Augmented Generation Systems

Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

Security and Privacy in Retrieval-Augmented Generation: Architectures, Threats, Defenses, and Future Directions for Building Trustworthy Systems

Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents

$π$-RAG: Oblivious Retrieval via Semantic Quantization and Transcendental Addressing for Large Language Models

When Global Gating Is Enough: Admission-Time Hubness Control in Anisotropic Vector Retrieval Systems

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots

Ghost Vectors: Soft-Deleted Embeddings Remain Reconstructible in HNSW Vector Databases

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems

Influence Factors on RAG Poisoning

The Injection Paradox: Brand-Level Suppression in Safety-Trained LLM Recommendations via RAG Context Injection

Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries

ImageAuditor: Membership Inference Attack against Image-based Retrieval-Augmented Generation

DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation

SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning

Can It Reach the Generator? Investigating the Survival of Prompt-Injection Attacks in Realistic RAG Settings

Grounded Cache Routing for Retrieval-Augmented Generation: When Is It Safe to Reuse an Answer?

Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control

Intelligent Detection and Mitigation of Carpet-Bombing DDoS Attacks in SDN Using Retrieval-Augmented Generation and Large Language Models

Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment

BiRD: A Bidirectional Ranking Defense Mechanism for Retrieval Augmented Generation

Auditing Privacy in Multi-Tenant RAG under Account Collusion

Privacy Policy Enforcement Guardrails for Data-Sensitive Retrieval-Augmented Generation

Knowledge Poisoning Attacks on Medical Multi-Modal Retrieval-Augmented Generation

Privacy Without Losing Place: A Paradigm for Private Retrieval in Spatial RAGs

FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation.

Evaluating Retrieval-Augmented Generation for Explainable Malware Analysis