本研究针对大型语言模型(LLM)通过托管API部署时面临的模型提取攻击威胁。模型提取攻击中,攻击者通过发送大量查询来窃取或复制目标模型的功能,但单个查询往往与正常用户请求难以区分。现有检测方法多基于单条查询异常评分或纯良性用户与攻击者用户分类场景,缺乏对混合多用户流量中攻击的有效检测。本文提出一种简单有效的检测方法:将传入查询嵌入语义空间,然后利用最大均值差异(MMD)检验其聚合分布是否偏离历史良性流量。具体地,仅通过良性流量之间的比较来设定决策阈值,无需攻击样本。在四种提取场景、十四个攻击者-正常查询对上的实验表明,该方法在三种随机种子下实现了0.3%的良性假阳性率、100.0%的纯攻击者检测率、90.5%的平均攻击者检测率和95.1%的平衡准确率。与PRADA、SEAT、CAP、DATE和边际马氏距离等基线方法相比,该方法效果显著。代码已开源。本文核心贡献在于将模型提取检测视为良性校准的流量窗口分布测试问题,并证明了简单方法在混合多用户环境下的有效性。适合关注LLM安全、模型窃取防御的研究人员和工程师阅读。
💡 推荐理由: LLM API服务面临模型提取威胁,现有检测方法在混合流量中效果不佳。本文提出的轻量级分布测试方法无需攻击样本即可高效检测,为API安全防护提供了实用基线。
🎯 建议动作: 研究跟进该检测方法,评估在自身LLM API流量中的适用性