推荐 5.5
Conf: 50%
大型语言模型(LLM)依赖键值(KV)缓存加速推理,许多服务系统进一步在用户请求间共享KV缓存以减少冗余计算。然而,无限制的跨用户共享引入了侧信道漏洞,攻击者可以通过探测缓存是否命中来推断用户输入。现有防御完全禁用共享以避免泄漏,但这种粗粒度的策略牺牲了巨大的复用潜力,因为提示中通常包含大量隐私无关的片段,如系统指令或公开可访问的材料。基于此,本文提出CachePrune,一种隐私感知的KV缓存共享机制,实现在请求之间对KV条目进行细粒度复用。实现这种细粒度需要令牌级别的缓存管理,因为可复用片段因敏感性掩蔽而在长度和位置上变化,使得复用比现有粗粒度方案中使用的固定大小或句子级分块更复杂。具体而言,CachePrune通过解决两个关键挑战使细粒度复用变得可行:准确高效地推导可复用KV片段,以及在可变长度跨度上高效检索它们。作者在vLLM上实现了CachePrune,并在三个数据集上进行了评估,结果表明它消除了通过KV缓存重用侧信道的直接泄漏,同时与最先进的方法相比,将TTFT(首个令牌时间)降低了4.5倍,缓存命中率提高了44%。本文的主要贡献包括:提出隐私感知的细粒度KV缓存共享框架,设计令牌级别的缓存管理和检索算法,并通过实验证明了其在隐私保护和性能提升上的有效性。适合对LLM推理系统安全、隐私保护和性能优化感兴趣的研究人员阅读。
💡 推荐理由: LLM推理系统中跨用户KV缓存共享在提升效率的同时引入了隐私侧信道泄漏风险。CachePrune首次实现了细粒度隐私感知的缓存复用,在不牺牲性能的前提下消除泄漏,对大规模LLM服务的隐私保护有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)