#model-extraction 主题 - Cyber Security Daily Radar

👥 作者: Shuze Liu, Qianwen Guo, Yushun Dong

本研究针对大型语言模型（LLM）通过托管API部署时面临的模型提取攻击威胁。模型提取攻击中，攻击者通过发送大量查询来窃取或复制目标模型的功能，但单个查询往往与正常用户请求难以区分。现有检测方法多基于单条查询异常评分或纯良性用户与攻击者用户分类场景，缺乏对混合多用户流量中攻击的有效检测。本文提出一种简单有效的检测方法：将传入查询嵌入语义空间，然后利用最大均值差异（MMD）检验其聚合分布是否偏离历史良性流量。具体地，仅通过良性流量之间的比较来设定决策阈值，无需攻击样本。在四种提取场景、十四个攻击者-正常查询对上的实验表明，该方法在三种随机种子下实现了0.3%的良性假阳性率、100.0%的纯攻击者检测率、90.5%的平均攻击者检测率和95.1%的平衡准确率。与PRADA、SEAT、CAP、DATE和边际马氏距离等基线方法相比，该方法效果显著。代码已开源。本文核心贡献在于将模型提取检测视为良性校准的流量窗口分布测试问题，并证明了简单方法在混合多用户环境下的有效性。适合关注LLM安全、模型窃取防御的研究人员和工程师阅读。

💡 推荐理由: LLM API服务面临模型提取威胁，现有检测方法在混合流量中效果不佳。本文提出的轻量级分布测试方法无需攻击样本即可高效检测，为API安全防护提供了实用基线。

🎯 建议动作: 研究跟进该检测方法，评估在自身LLM API流量中的适用性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kaixiang Zhao, Bolin Shen, Yuyang Dai, Shayok Chakraborty, Yushun Dong

该论文提出了 GraphIP-Bench，一个用于系统评估图神经网络（GNN）模型窃取攻击与防御的统一基准。作者指出，现有研究因数据集、威胁模型和评估指标不一致而无法回答“窃取GNN有多难”以及“能否阻止”这两个关键问题。GraphIP-Bench 在统一的黑盒协议下集成了12种模型提取攻击、12种防御方法（涵盖水印、输出扰动和查询模式检测三类）、10个公开图数据集（包含同质、异质和大规模图）、3种GNN骨干网络和3种图学习任务，并报告了保真度、任务效用、所有权验证和计算成本等指标。此外，还增加了联合攻击-防御赛道，对每个受保护目标运行所有攻击，并测量提取后替代模型上的水印验证效果。实验结果表明：在中等查询预算下，窃取GNN很容易，且大多数防御未能改变这一现状；多种水印在受保护模型上可靠验证，但在提取的替代模型上几乎失去验证信号，这暴露了单一模型评估遗漏的漏洞；异质图更难以窃取，而目标与替代模型之间的跨架构不匹配会降低但无法阻止提取。论文提供了开源代码。该研究对安全从业者理解GNN模型窃取风险及评估防御有效性具有重要参考价值。

💡 推荐理由: GNN云服务面临模型窃取攻击威胁，而现有评估缺乏统一标准。本文首次系统对比攻击与防御，揭示多数防御无效、水印易被移除等关键发现，为安全团队制定防护策略提供了实证依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Zhengyi Li, Yakai Wang, Kang Yang, Yu Yu, Jiaping Gui, Yu Feng, Ning Liu, Minyi Guo, Jingwen Leng

本文针对Transformer模型安全推断中的shuffling防御机制展开研究。在安全推断场景中，客户端通过加密协议仅获知模型最终输出，而服务器无法得知客户端输入。然而，非线性层的安全计算因通信轮数和数据传输量巨大而成为效率瓶颈。为提升效率，先前工作选择向客户端暴露中间激活值，使其可以在明文下计算非线性操作，但这一做法使得敌手可能从暴露的激活中提取模型权重。作为缓解措施，现有工作采用shuffling防御，即仅向客户端公开经过随机排列后的激活值，期望通过破坏激活值与权重的对应关系来阻止模型提取。本文证明该shuffling防御远不如先前声称的稳健。作者提出一种攻击方法，首先将不同轮次中经过不同随机排列的激活值对应到同一个排列空间（即对齐），进而利用这些对齐后的激活值恢复模型权重。具体地，攻击者通过观察多次推理中暴露的shuffled激活，利用激活值之间的统计关联推断出排列关系，实现高精度对齐。在Pythia-70m和GPT-2上的实验表明，所提出的攻击可以将shuffled激活对齐到均方误差仅为10^{-9}到10^{-6}的水平。进一步，在查询成本约为1美元的条件下，敌手恢复出的模型权重与真实权重之间的L1范数差异仅为10^{-4}到10^{-2}，几乎完全恢复。该工作揭示了shuffling防御的根本缺陷，提示安全推断设计中需要更加稳健的保护机制。

💡 推荐理由: shuffling防御曾被认为是保护模型权重的有效方案，本论文证明其本质上不安全，攻击者能以极低成本（约1美元）恢复Transformer模型权重，对依赖该技术的安全推断系统构成直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hao Luan, Xue Tan, Zhiheng Li, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文提出一种基于自监督学习的模型提取攻击方法，旨在同时实现数据集缩减和水印移除。传统模型提取攻击通常需要大量查询和完整训练数据，且可能保留原始模型的水印。作者利用自监督学习（如对比学习）从目标模型中提取知识，仅需少量未标记样本即可训练一个紧凑的替代模型。该方法通过构建正负样本对进行对比学习，使替代模型模仿目标模型的表示空间，从而在减少数据集规模（例如仅需原始数据集的10%）的同时，有效消除嵌入在目标模型中的水印。实验在多个图像分类数据集（CIFAR-10, CIFAR-100, SVHN）和不同架构（ResNet, VGG）上进行，结果显示替代模型在保持高准确率（接近目标模型）的同时，水印移除成功率显著高于基线方法。该研究揭示了自监督学习在模型窃取中的潜力，对模型水印保护机制构成新挑战。

💡 推荐理由: 该研究暴露了自监督学习可被用于高效模型窃取并绕过水印保护，威胁模型知识产权和安全性，需引起防御方重视。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#model-extraction

An Embarrassingly Simple Detector for Model Extraction Attacks in Large Language Model API Traffic

GraphIP-Bench: How Hard Is It to Steal a Graph Neural Network, and Can We Stop It?

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference

Dataset Reduction and Watermark Removal via Self-supervised Learning for Model Extraction Attack.