推荐 5.5
Conf: 50%
该论文提出了GRIEF,一种面向LLM推理引擎的灰盒模糊测试工具,旨在发现服务层漏洞。当前LLM推理引擎(如vLLM、SGLang)引入了KV缓存、批处理、前缀共享、推测解码、适配器和多租户调度等机制,这些共享状态行为仅在真实并发工作负载下才显现,而标准的模型测试、安全测试和API测试无法覆盖。GRIEF将定时多请求轨迹作为一等输入,使用轻量级预言(oracle)检测崩溃、挂起、性能异常和静默输出损坏,并通过带log-probability检查的可控重放来确认可重现的服务层故障。在vLLM和SGLang上的早期测试中,GRIEF发现了15个漏洞,其中10个被开发者确认,包括2个CVE,涵盖KV缓存隔离失败、跨请求性能干扰、崩溃或活锁问题。结果表明,并发、缓存和状态重用可导致静默跨请求污染、邻区噪声拒绝服务以及延迟崩溃,且无需畸形输入或显式服务器错误。因此,并发的服务行为应作为LLM基础设施的一级安全与可靠性边界。
💡 推荐理由: LLM服务系统已成为关键基础设施,但其服务层漏洞(如跨请求污染、拒绝服务)难以通过常规测试发现。GRIEF首次系统性地针对服务层并发特性进行模糊测试,揭示了一类被忽视的安全风险,对保障LLM生产环境稳定性和数据隔离有直接指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)