随着检索增强生成(RAG)的广泛应用,针对RAG系统的对抗性攻击日益增多。现有防御方法主要依赖语义分析或多轮投票,但存在高计算成本或在强投毒攻击下鲁棒性有限的缺陷。其根本局限在于仅关注语义内容相关性,而忽略了由排序结构定义的检索上下文。本文研究了中毒文档与良性文档在双向排序行为上的差异,发现一个关键的判别模式:中毒文档的反向排序与查询的正向排序之间存在显著更强的一致性。基于此,作者提出了BiRD——一种基于双向排序的防御机制。BiRD构建于双信号框架之上,利用正向排序评估语义内容相关性,利用反向排序量化排序上下文一致性。这种设计直接克服了先前方法的根本局限,在保证效率的同时实现了鲁棒性。在3个数据集、3种检索器、3种大语言模型以及2种攻击场景下的广泛评估验证了BiRD的有效性。值得注意的是,BiRD能将PoisonedRAG的攻击成功率降低最多54%,同时将任务准确率提升最多56%,且平均额外延迟低于1秒。
💡 推荐理由: 本文首次从排序结构的角度发现中毒文档与良性文档的差异性,并提出一种轻量级、即插即用的防御机制,显著优于现有方法,为RAG安全防护提供了全新思路。
🎯 建议动作: 研究跟进