#RAG 主题 - Cyber Security Daily Radar

👥 作者: Yige Wang, Shiqi Yi, Hanzhou Wu

传统的自适应图像隐写成本函数设计需要大量手动调参，而深度学习方法又缺乏可解释性。大语言模型（LLM）通过进化生成提供了一种自动化替代方案，但由于缺乏显式领域知识，常常违反领域特定的数学约束。为了解决这一问题，本文提出了一种新颖的进化系统，利用检索增强生成（RAG）增强的LLM，自动生成空间图像隐写的代码级成本函数。该系统的核心是自进化RAG（SE-RAG）模块，其中代码语义签名（CSS）将过程代码转换为对齐的查询，从静态文献和动态经验知识库中检索显式指导，从而引导LLM生成过程。一个专门的反馈机制不断用成功的优化策略优化动态知识库。在BOSSBase和BOWS2数据集上的大量实验表明，该框架比现有的自动设计方法始终获得更高的隐写安全性，同时将平均代码执行率提高了46.3%，搜索成本降低了26.1%，从而凸显了将LLM与领域知识相结合在自动隐写算法生成领域的有效性、高效性和潜力。本文适合对隐写术、自动化算法设计以及LLM应用感兴趣的研究人员和安全从业者阅读。

💡 推荐理由: 该研究首次将RAG与LLM结合用于隐写成本函数自动生成，显著提升了隐写安全性和代码执行效率，为隐写分析防御提供了新思路，值得关注LLM在安全领域应用的研究者跟进。

🎯 建议动作: 研究跟进，评估该方法对隐写检测和防御的潜在影响

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Donghyun Lee, Juntae Kim

该论文发布了一个针对检索增强生成（RAG）系统中协调性检索投毒攻击的基准测试与失败模式感知评估框架。作者将阅读器输出划分为四个互斥类别（金标准、劫持、弃权、漂移），并引入了实例级别的配对清洁到投毒转换矩阵和强制暴露协议，以隔离阅读器端冲突解决与检索变异的影响。论文提出了一种名为“多态Sybil投毒”的协调攻击类别，其中S个词汇多样的文本段落联合支持攻击者选择的目标，同时规避词汇近似重复过滤器。实验表明，在强制暴露协议下，与单一形态相比，多态变体将劫持成功率从4.0%提升至22.8%，放大了5.7倍。此外，攻击成功率（ASR）单独无法捕获弃权和漂移模式，这些模式占据了47-66%的输出质量，而两个阅读器在ASR几乎相同的情况下，在弃权和漂移上分别有16.5和17.2个百分点的差异。论文发布了冻结基准（3145个问题，2982个保留的Sybil组），官方四路评估器，配对转换工具，以及强制暴露框架，覆盖五个阅读器（7B-120B）、两个检索器和两个交叉验证数据集（TriviaQA, 2Wiki），数据采用CC BY-SA 4.0，软件采用MIT许可证。

💡 推荐理由: 该论文揭示了RAG系统在面对协调性检索投毒时的脆弱性，特别是多态变体能有效绕过现有检测，这对防御者理解并防范此类新型攻击至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Inderjeet Singh, Andrés Murillo, Motoyoshi Sekiya, Yuki Unno, Junichi Suga

本文提出了一种针对多模态智能体检索增强生成（RAG）系统的统一红队测试框架MIRROR。现有红队方法通常针对特定攻击面（如文本投毒、图像注入、直接查询、编排器工具操控），且常复用已知攻击模板，在文本投毒基准测试中重复率高达73-84%。MIRROR采用记忆引导的蒙特卡洛树搜索（MCTS），通过检索上下文约束候选生成，并引入显式的新颖性约束：确定性新颖性门控拒绝与检索集匹配的候选（基于归一化比较），使检索仅用于指导搜索先验而避免提示复制。在包含4个攻击面的多模态智能体RAG目标上，MIRROR实现了图像投毒76%的攻击成功率（ASR），基线为52%；编排器攻击97% ASR且查询成本减半；跨攻击面变异系数最低（0.47）。相比之下，专用基线在不同攻击面间性能崩塌：后缀优化在文本投毒上达79% ASR，但在直接查询上仅1%。作者还发布了ART-SafeBench基准测试，包含4个攻击面的41,815条包内记录及运行时适配器，总计41,991+条记录。

💡 推荐理由: 该工作针对多模态智能体RAG系统的跨攻击面安全问题，提出了一种统一、高效且具备记忆能力的红队测试方法，对提升此类系统的鲁棒性和安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: He Sun, Shinan Liu, Siyuan Ma, Junhao Li, Mingjun Xiao, Wenhao Jiang

本文揭示了现代大语言模型（LLM）服务引擎中检索增强生成（RAG）和非前缀键值（KV）缓存融合机制存在的一类结构性安全漏洞。与以往需要严格线性前缀对齐的KV缓存侧信道攻击不同，本文发现基于分块感知内存调度的微架构机制会无意中泄露连续的“Step-Wave”时序信号。作者在此基础上提出了SpliceLeak，这是首个针对非前缀KV缓存融合的端到端侧信道攻击。SpliceLeak通过两个阶段实现隐私窃取：首先结构性地指纹识别隐藏私有提示的精确长度，然后通过操纵边界碰撞逐token提取精确语义内容。在结合vLLM和LMCache的生产级框架上评估表明，SpliceLeak在有限熵场景下可达100%的提取成功率，攻击仅需每个token约63次请求即可穿透连续批处理噪声。为缓解该漏洞，作者提出了SpliceDefense，一种包含量化分块填充（QCP）和恒定时间边界融合（CTBF）的双部缓解框架。实验证明SpliceDefense能有效消除侧信道信号（Delta TTFT ≈ 0），且吞吐量开销可忽略，同时保留了全局缓存共享的关键优势。本文的发现揭示了内存去重与安全性之间的根本冲突，对LLM安全研究具有重要参考价值。

💡 推荐理由: 首次揭示了RAG系统中非前缀KV缓存融合的侧信道攻击路径，攻击者可获取用户私有提示长度和内容，对基于LLM的敏感应用构成严重隐私威胁。防御方案为缓存共享与安全平衡提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jinze Gu, Qinghua Mao, Xi Lin, Jun Wu

该论文提出了一种针对基于知识图谱的检索增强生成（Graph RAG）系统的结构知识窃取攻击方法，称为GraphSteal。Graph RAG通过将知识图谱集成到检索管道中，使大语言模型能够利用结构化知识中的实体、关系和多跳依赖。然而，这种结构化知识同时引入了新的隐私风险：攻击者可以通过黑盒交互将Graph RAG系统转化为结构化预言机，逐步获取足够的关联证据以重建隐藏知识图谱的大部分内容。论文提出的重构框架包含两种策略：深度优先启发式搜索（Depth-Wise Heuristic Search）通过递归扩展以实体为中心的线索来提取细粒度的节点属性；广度优先扩散搜索（Breadth-Wise Diffusion Search）通过沿关系诱导的邻域传播来推断图拓扑。在通用医疗场景下的实验表明，该方法能从代表性Graph RAG系统中恢复超过90%的原始知识图谱，高保真地揭示敏感实体、关系和结构依赖。现有防护措施对此攻击的防御效果有限，凸显了保护Graph RAG管道中结构隐私的固有困难。该研究主要面向LLM安全、隐私保护以及RAG系统设计的研究人员。

💡 推荐理由: 该研究揭示了Graph RAG系统在结构隐私方面的新攻击面，攻击者无需内部权限即可高精度重建知识图谱，对依赖结构化知识的应用构成严重隐私威胁，安全从业者需重新评估RAG体系的安全假设。

🎯 建议动作: 内部评估现有Graph RAG系统的结构隐私暴露风险，研究对抗性查询检测与响应扰动机制。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成（RAG）系统在知识库投毒攻击下的鲁棒性，重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试，而本文首次评估了四种典型RAG架构：vanilla RAG（标准流水线）、agentic RAG（智能体式检索）、MADAM-RAG（多智能体辩论）和Recursive Language Models（递归语言模型）。实验基于921个Natural Questions问答对，在单文档投毒（N=1）场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现：架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下，各架构的攻击成功率差异显著：vanilla RAG高达81.9%，而RLM仅24.4%，跨度近58个百分点，尽管它们在干净数据上的准确率相近（约92%）。进一步分解发现，一旦投毒文档被检索到，攻击优势主要来自对抗性框架（而非检索优化），且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率，但LLM评判器过度识别了该行为（精确率约48.5%），因此报告值为上限。即便检测到矛盾，MADAM-RAG也无法可靠解决，导致即使是干净输入也有41.4%的非回答率（不过可能与实现偏差有关）。论文引入了一个七类别行为分类法，涵盖了矛盾检测、模糊回答及失败模式等，超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异，指明攻击成功的关键环节是内容推理而非检索，为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#RAG

Code-Level Cost Function Generation for Spatial Image Steganography Using RAG-Enhanced Large Language Models

A Failure-Mode Benchmark for Polymorphic Sybil Poisoning in RAG

MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG

Agent-Assisted Side-Channel Attacks on Non-Prefix KV Cache in RAG

GraphSteal: Structural Knowledge Stealing from Graph RAG via Traversal Reconstruction

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning