推荐 8.6
Conf: 50%
该论文针对检索增强生成(RAG)系统面临的知识投毒攻击,提出了一种基于信息流控制的防御框架CORDON-MAS。研究发现,现有防御方法(如污染检测)存在监控-控制差距:模型能够检测到检索结果中的矛盾证据,但仍会基于被污染的文档生成有害输出。作者提出科登原则(Cordon Principle):任何负责最终合成的智能体不得直接访问未受信任的自然语言证据。基于此原则,设计了CORDON-MAS框架,通过将证据提取、跨源审计和答案合成分离为具有非对称内存权限的独立智能体,从架构上强制实施信息流控制。在五个BEIR数据集上的实验表明,相比无防御的RAG系统,CORDON-MAS将攻击成功率降低了92.4%。该工作将RAG投毒问题从检测问题重新定义为信息流控制问题,为构建可信RAG系统提供了新思路。
💡 推荐理由: 首次揭示了RAG防御中监控-控制差距的存在,并提出将投毒防御从检测转向信息流控制的新范式,对保障基于RAG的高风险应用安全具有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)