#knowledge base poisoning

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成(RAG)系统在知识库投毒攻击下的鲁棒性,重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试,而本文首次评估了四种典型RAG架构:vanilla RAG(标准流水线)、agentic RAG(智能体式检索)、MADAM-RAG(多智能体辩论)和Recursive Language Models(递归语言模型)。实验基于921个Natural Questions问答对,在单文档投毒(N=1)场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现:架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下,各架构的攻击成功率差异显著:vanilla RAG高达81.9%,而RLM仅24.4%,跨度近58个百分点,尽管它们在干净数据上的准确率相近(约92%)。进一步分解发现,一旦投毒文档被检索到,攻击优势主要来自对抗性框架(而非检索优化),且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率,但LLM评判器过度识别了该行为(精确率约48.5%),因此报告值为上限。即便检测到矛盾,MADAM-RAG也无法可靠解决,导致即使是干净输入也有41.4%的非回答率(不过可能与实现偏差有关)。论文引入了一个七类别行为分类法,涵盖了矛盾检测、模糊回答及失败模式等,超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异,指明攻击成功的关键环节是内容推理而非检索,为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)