#knowledge base poisoning 主题 - Cyber Security Daily Radar

👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成（RAG）系统在知识库投毒攻击下的鲁棒性，重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试，而本文首次评估了四种典型RAG架构：vanilla RAG（标准流水线）、agentic RAG（智能体式检索）、MADAM-RAG（多智能体辩论）和Recursive Language Models（递归语言模型）。实验基于921个Natural Questions问答对，在单文档投毒（N=1）场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现：架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下，各架构的攻击成功率差异显著：vanilla RAG高达81.9%，而RLM仅24.4%，跨度近58个百分点，尽管它们在干净数据上的准确率相近（约92%）。进一步分解发现，一旦投毒文档被检索到，攻击优势主要来自对抗性框架（而非检索优化），且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率，但LLM评判器过度识别了该行为（精确率约48.5%），因此报告值为上限。即便检测到矛盾，MADAM-RAG也无法可靠解决，导致即使是干净输入也有41.4%的非回答率（不过可能与实现偏差有关）。论文引入了一个七类别行为分类法，涵盖了矛盾检测、模糊回答及失败模式等，超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异，指明攻击成功的关键环节是内容推理而非检索，为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#knowledge base poisoning

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning