本文针对检索增强生成(RAG)系统中的缓存安全问题展开研究。现代RAG部署广泛使用缓存来降低token成本和时间至首token延迟(TTFT),其中前缀级KV复用已是标准做法,但输出级的语义答案缓存仍然脆弱:相似提示可能映射到不同正确答案,检索证据随语料更新而漂移,且存在对抗性碰撞攻击可劫持缓存响应。作者指出缓存答案复用的关键问题不在于如何更快复用,而在于何时复用是安全的。为此,他们提出GroundedCache——一种基于证据验证的缓存路由器,仅当四个廉价门控条件同时满足时才允许复用缓存答案:查询相似性、检索证据重叠、源版本有效性以及新检索证据对缓存答案的词汇(或基于评判器)支持。研究构建了一个六模态工作负载来压力测试缓存安全性而非仅关注命中率,并引入面向运营者的指标——不安全服务率(USR),即接收到错误缓存答案的查询比例。在2个数据集和12,000个真实LLM生成(使用vLLM和自动前缀缓存的Qwen2.5-7B-Instruct)上的实验表明,GroundedCache在HotpotQA的每个模态下将USR降至0.0%(而朴素缓存为15-35%),在mtRAG文档漂移下降至1.5%(对比51.5%),在对抗性模态下实现34倍减少,在其他mtRAG模态下减少3-10倍,同时端到端中位延迟保持在无缓存RAG基线的1.04-1.07倍。消融实验显示,词汇支持门控是两个数据集上的主要安全机制,其他门控以接近零成本提供深度防御。本文适用于RAG系统开发者、缓存设计者和安全研究者。
💡 推荐理由: 揭示了RAG中缓存答案复用的安全漏洞,提出一种轻量级验证机制,可显著降低不安全缓存服务率(USR),对保障RAG系统输出正确性至关重要。
🎯 建议动作: 研究跟进:评估将GroundedCache集成到现有RAG缓存栈的可行性。