#llm-serving 主题 - Cyber Security Daily Radar

👥 作者: Hang Yin, Kevin Wang

本文研究了在 Blackwell GPU 机密计算（GPU-CC）环境下，LLM 推理服务性能显著下降的根本原因。作者在 NVIDIA RTX Pro 6000 和 B300 HGX 两个平台上进行了实验，发现性能瓶颈并非来自 GPU 计算本身（B300 上 BF16 矩阵乘法性能几乎无损失），而是来自机密虚拟机与 GPU 之间的通信桥接。在 Intel TDX 和 GPU-CC 的联合部署下，LLM 服务吞吐量损失 13-27%，KV-cache 恢复延迟增加一倍以上。通过深入分析，作者指出 GPU-CC 将主机与设备之间的数据传输变成了一个串行化、高设置开销的通道：安全拷贝无法获得 CUDA 流内的并发性，异步传输在运行时边界阻塞，小规模数据交换需要固定的开销。这与现代推理运行时（如 vLLM）依赖廉价、并发、异步 DMA 的假设相悖。在 vLLM 密集解码场景中，差距主要来自 44 倍更慢的小分配和拷贝操作；通过针对性补丁排除了其他原因。作者提出了一种调度标志（恢复 57% 的差距）和工作线程排空（在高并发下最多恢复 92% 的差距）两种方法。同样的桥接模型也解释了 KV 恢复惩罚增加 131% 和模型加载速度减慢 34 倍的现象。此外，论文还验证了 Blackwell 平台上多 GPU 机密租户（包括 CVM 内 510 GB/s NVLink P2P 和并发隔离租户）的能力，并指出了生产级机密 AI 平台尚需解决的远程证明缺口。本文适合系统安全工程师、AI 基础设施开发者和云服务提供商阅读。

💡 推荐理由: 揭示了机密计算下LLM推理性能瓶颈不在GPU而在主机-设备桥接，为优化机密推理基础设施提供关键方向，直接影响云服务商部署机密AI服务的成本与效率。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yunze Zhao, Yibo Zhao, Yuchen Zhang, Zaoxing Liu, Michelle L. Mazurek

该论文提出了GRIEF，一种面向LLM推理引擎的灰盒模糊测试工具，旨在发现服务层漏洞。当前LLM推理引擎（如vLLM、SGLang）引入了KV缓存、批处理、前缀共享、推测解码、适配器和多租户调度等机制，这些共享状态行为仅在真实并发工作负载下才显现，而标准的模型测试、安全测试和API测试无法覆盖。GRIEF将定时多请求轨迹作为一等输入，使用轻量级预言（oracle）检测崩溃、挂起、性能异常和静默输出损坏，并通过带log-probability检查的可控重放来确认可重现的服务层故障。在vLLM和SGLang上的早期测试中，GRIEF发现了15个漏洞，其中10个被开发者确认，包括2个CVE，涵盖KV缓存隔离失败、跨请求性能干扰、崩溃或活锁问题。结果表明，并发、缓存和状态重用可导致静默跨请求污染、邻区噪声拒绝服务以及延迟崩溃，且无需畸形输入或显式服务器错误。因此，并发的服务行为应作为LLM基础设施的一级安全与可靠性边界。

💡 推荐理由: LLM服务系统已成为关键基础设施，但其服务层漏洞（如跨请求污染、拒绝服务）难以通过常规测试发现。GRIEF首次系统性地针对服务层并发特性进行模糊测试，揭示了一类被忽视的安全风险，对保障LLM生产环境稳定性和数据隔离有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-serving

The Serialized Bridge: Understanding and Recovering LLM Serving Performance under Blackwell GPU Confidential Computing

Continuous Discovery of Vulnerabilities in LLM Serving Systems with Fuzzing