#cache-sharing 主题 - Cyber Security Daily Radar

👥 作者: Guanlong Wu, Zhaohan li, Yao Zhang, Zheng Zhang, Jianyu Niu, Ye Wu, Yinqian Zhang

大型语言模型（LLM）依赖键值（KV）缓存加速推理，许多服务系统进一步在用户请求间共享KV缓存以减少冗余计算。然而，无限制的跨用户共享引入了侧信道漏洞，攻击者可以通过探测缓存是否命中来推断用户输入。现有防御完全禁用共享以避免泄漏，但这种粗粒度的策略牺牲了巨大的复用潜力，因为提示中通常包含大量隐私无关的片段，如系统指令或公开可访问的材料。基于此，本文提出CachePrune，一种隐私感知的KV缓存共享机制，实现在请求之间对KV条目进行细粒度复用。实现这种细粒度需要令牌级别的缓存管理，因为可复用片段因敏感性掩蔽而在长度和位置上变化，使得复用比现有粗粒度方案中使用的固定大小或句子级分块更复杂。具体而言，CachePrune通过解决两个关键挑战使细粒度复用变得可行：准确高效地推导可复用KV片段，以及在可变长度跨度上高效检索它们。作者在vLLM上实现了CachePrune，并在三个数据集上进行了评估，结果表明它消除了通过KV缓存重用侧信道的直接泄漏，同时与最先进的方法相比，将TTFT（首个令牌时间）降低了4.5倍，缓存命中率提高了44%。本文的主要贡献包括：提出隐私感知的细粒度KV缓存共享框架，设计令牌级别的缓存管理和检索算法，并通过实验证明了其在隐私保护和性能提升上的有效性。适合对LLM推理系统安全、隐私保护和性能优化感兴趣的研究人员阅读。

💡 推荐理由: LLM推理系统中跨用户KV缓存共享在提升效率的同时引入了隐私侧信道泄漏风险。CachePrune首次实现了细粒度隐私感知的缓存复用，在不牺牲性能的前提下消除泄漏，对大规模LLM服务的隐私保护有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#cache-sharing

CachePrune: Privacy-Aware and Fine-Grained KV Cache Sharing for Efficient LLM Inference