#kv-cache

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Gabriel Garcia

本文研究了在共享全局上限的解码时(decode-time)场景下,多种KV缓存逐出策略(LRU, H2O, SnapKV, StreamingLLM, Ada-KV, QUEST, Random)的表现。作者发现,这些策略存在一个共同的漏洞:缺乏结构保护(structural protection)时,在六个纯Transformer模型上性能几乎崩溃(F1≤0.064)。通过在每次边界保留10%的缓存,在7个LongBench模型上,缓存上限C=256(仅保留13%的缓存)时恢复了69-90%的参考上限(C=2048)质量;在十个模型面板上恢复68-98%。注意力质量实验(Qwen2.5-3B, N=30)揭示了原因:位置0的sink token持有约75%的prefix质量,而其他边界token接近均匀期望的0.41倍,因此注意力评分器会保留sink token,但仍会丢弃结构上关键的token。有了保护,简化的评分隔离变体在K=32时与LRU等效(Δ=0.02),在K=8时注意力策略彼此收敛但在C=256和C=512时仍比LRU高0.011-0.021 F1。忠实实现的Ada-KV/QUEST在Mistral-7B和Phi-3.5上比简化变体额外提升约0.03-0.04 F1。在NIAH-32K长上下文场景(Qwen3-4B, C∈{512,2048})下,保护提升效果几乎相同(比率0.99-1.00)。在64K长度时,保护有帮助但恢复有限;仅在模型本身无需逐出即可支持强64K检索时,忠实每头评分才能在6.3%保留率下匹配全缓存上限(Gemma-3-4B)。总体结论:结构保护占主导地位;一旦边界得到保护,评分差异是次要的;每头分配带来额外的适度提升。该研究揭示了当前缓存逐出策略的脆弱性,并强调了保护prompt边界的重要性,对LLM推理效率与质量平衡有重要指导意义。

💡 推荐理由: 本文揭示了主流KV缓存逐出策略在全局共享上限下的系统性缺陷,提出简单的结构保护即可大幅恢复性能,对于部署长上下文LLM的工程团队具有直接实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhifan Luo, Shuo Shao 0002, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin

本文研究了大型语言模型(LLM)推理过程中键值缓存(KV-cache)带来的隐私风险。KV-cache是LLM中用于加速自回归解码的关键组件,它会存储中间注意力层的键和值张量。作者发现,KV-cache中可能残留用户输入的敏感信息,例如个人身份、医疗记录或金融数据。通过分析KV-cache的数据生命周期,攻击者若获得缓存访问权限(如通过共享内存、侧信道攻击或模型托管环境中的越权访问),可重建部分用户输入,导致隐私泄露。论文提出了一种基于差分隐私的缓存扰动机制,在KV-cache写入内存前添加精心设计的噪声,使得攻击者无法准确恢复原始数据,同时最小化对推理质量和性能的影响。实验在多个主流LLM(如LLaMA、GPT类模型)上验证了方法的有效性:隐私保护强度可调节,且模型困惑度下降不超过2%,推理延迟增加小于5%。此外,论文还讨论了与现有内存加密和访问控制技术的互补性。该研究首次系统性地披露了KV-cache作为LLM隐私攻击面的可能性,并提供了实用的防御思路。

💡 推荐理由: KV-cache是LLM推理的标配优化技术,但其隐私风险此前未被重视。该研究揭示了新的攻击面,对使用共享推理基础设施(如云端API、边缘设备)的场景有直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)