#kv-cache 主题 - Cyber Security Daily Radar

👥 作者: Yichi Zhang, Zhiqi Wang, Huan Zhang, Yuchen Yang

本文揭示了大型语言模型（LLM）中位置无关KV缓存重用机制引入的一种新安全威胁——KV缓存劫持（KV Cache Hijacking）。传统的基于前缀的KV缓存重用精确匹配token和位置，缓存命中率低。为提升效率，近期系统优化提出位置无关的KV重用，允许相同文本块（无论位置）复用缓存。然而，这种设计存在隐患：KV缓存通过token匹配检索，但编码了原始计算时的上下文。因此，一个看似良性的token chunk所关联的KV可能隐含攻击者控制的前缀。当该KV被复用到受害者查询中时，会静默劫持模型行为，即使输入中不含攻击者控制的文本。作者提出首个系统性攻击框架HIJACKKV，通过优化攻击者控制的前缀，使得后续常见良性文本的KV编码攻击者目标，而文本本身保持不变以命中缓存。实验表明，HIJACKKV单次攻击平均成功率达94%；在低缓存命中率（10%）和频繁重新计算（50%）等现实约束下仍然有效；可跨多轮交互持久化，并在黑盒场景下跨模型迁移。论文进一步给出了构建安全KV重用系统的设计思路。

💡 推荐理由: 该攻击利用LLM系统优化中未被注意的安全盲点，可静默操控模型输出，对部署了KV缓存加速的LLM服务构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Gabriel Garcia

本文研究了在共享全局上限的解码时（decode-time）场景下，多种KV缓存逐出策略（LRU, H2O, SnapKV, StreamingLLM, Ada-KV, QUEST, Random）的表现。作者发现，这些策略存在一个共同的漏洞：缺乏结构保护（structural protection）时，在六个纯Transformer模型上性能几乎崩溃（F1≤0.064）。通过在每次边界保留10%的缓存，在7个LongBench模型上，缓存上限C=256（仅保留13%的缓存）时恢复了69-90%的参考上限（C=2048）质量；在十个模型面板上恢复68-98%。注意力质量实验（Qwen2.5-3B, N=30）揭示了原因：位置0的sink token持有约75%的prefix质量，而其他边界token接近均匀期望的0.41倍，因此注意力评分器会保留sink token，但仍会丢弃结构上关键的token。有了保护，简化的评分隔离变体在K=32时与LRU等效（Δ=0.02），在K=8时注意力策略彼此收敛但在C=256和C=512时仍比LRU高0.011-0.021 F1。忠实实现的Ada-KV/QUEST在Mistral-7B和Phi-3.5上比简化变体额外提升约0.03-0.04 F1。在NIAH-32K长上下文场景（Qwen3-4B, C∈{512,2048}）下，保护提升效果几乎相同（比率0.99-1.00）。在64K长度时，保护有帮助但恢复有限；仅在模型本身无需逐出即可支持强64K检索时，忠实每头评分才能在6.3%保留率下匹配全缓存上限（Gemma-3-4B）。总体结论：结构保护占主导地位；一旦边界得到保护，评分差异是次要的；每头分配带来额外的适度提升。该研究揭示了当前缓存逐出策略的脆弱性，并强调了保护prompt边界的重要性，对LLM推理效率与质量平衡有重要指导意义。

💡 推荐理由: 本文揭示了主流KV缓存逐出策略在全局共享上限下的系统性缺陷，提出简单的结构保护即可大幅恢复性能，对于部署长上下文LLM的工程团队具有直接实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhifan Luo, Shuo Shao 0002, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin

本文研究了大型语言模型（LLM）推理过程中键值缓存（KV-cache）带来的隐私风险。KV-cache是LLM中用于加速自回归解码的关键组件，它会存储中间注意力层的键和值张量。作者发现，KV-cache中可能残留用户输入的敏感信息，例如个人身份、医疗记录或金融数据。通过分析KV-cache的数据生命周期，攻击者若获得缓存访问权限（如通过共享内存、侧信道攻击或模型托管环境中的越权访问），可重建部分用户输入，导致隐私泄露。论文提出了一种基于差分隐私的缓存扰动机制，在KV-cache写入内存前添加精心设计的噪声，使得攻击者无法准确恢复原始数据，同时最小化对推理质量和性能的影响。实验在多个主流LLM（如LLaMA、GPT类模型）上验证了方法的有效性：隐私保护强度可调节，且模型困惑度下降不超过2%，推理延迟增加小于5%。此外，论文还讨论了与现有内存加密和访问控制技术的互补性。该研究首次系统性地披露了KV-cache作为LLM隐私攻击面的可能性，并提供了实用的防御思路。

💡 推荐理由: KV-cache是LLM推理的标配优化技术，但其隐私风险此前未被重视。该研究揭示了新的攻击面，对使用共享推理基础设施（如云端API、边缘设备）的场景有直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#kv-cache

HijackKV: New Threat in Position-Independent KV Cache Reuse

Protection Is (Nearly) All You Need: Structural Protection Dominates Scoring in Globally Capped KV Eviction

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference.