#model-extraction

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Kaixiang Zhao, Bolin Shen, Yuyang Dai, Shayok Chakraborty, Yushun Dong

该论文提出了 GraphIP-Bench,一个用于系统评估图神经网络(GNN)模型窃取攻击与防御的统一基准。作者指出,现有研究因数据集、威胁模型和评估指标不一致而无法回答“窃取GNN有多难”以及“能否阻止”这两个关键问题。GraphIP-Bench 在统一的黑盒协议下集成了12种模型提取攻击、12种防御方法(涵盖水印、输出扰动和查询模式检测三类)、10个公开图数据集(包含同质、异质和大规模图)、3种GNN骨干网络和3种图学习任务,并报告了保真度、任务效用、所有权验证和计算成本等指标。此外,还增加了联合攻击-防御赛道,对每个受保护目标运行所有攻击,并测量提取后替代模型上的水印验证效果。实验结果表明:在中等查询预算下,窃取GNN很容易,且大多数防御未能改变这一现状;多种水印在受保护模型上可靠验证,但在提取的替代模型上几乎失去验证信号,这暴露了单一模型评估遗漏的漏洞;异质图更难以窃取,而目标与替代模型之间的跨架构不匹配会降低但无法阻止提取。论文提供了开源代码。该研究对安全从业者理解GNN模型窃取风险及评估防御有效性具有重要参考价值。

💡 推荐理由: GNN云服务面临模型窃取攻击威胁,而现有评估缺乏统一标准。本文首次系统对比攻击与防御,揭示多数防御无效、水印易被移除等关键发现,为安全团队制定防护策略提供了实证依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)
👥 作者: Zhengyi Li, Yakai Wang, Kang Yang, Yu Yu, Jiaping Gui, Yu Feng, Ning Liu, Minyi Guo, Jingwen Leng

本文针对Transformer模型安全推断中的shuffling防御机制展开研究。在安全推断场景中,客户端通过加密协议仅获知模型最终输出,而服务器无法得知客户端输入。然而,非线性层的安全计算因通信轮数和数据传输量巨大而成为效率瓶颈。为提升效率,先前工作选择向客户端暴露中间激活值,使其可以在明文下计算非线性操作,但这一做法使得敌手可能从暴露的激活中提取模型权重。作为缓解措施,现有工作采用shuffling防御,即仅向客户端公开经过随机排列后的激活值,期望通过破坏激活值与权重的对应关系来阻止模型提取。本文证明该shuffling防御远不如先前声称的稳健。作者提出一种攻击方法,首先将不同轮次中经过不同随机排列的激活值对应到同一个排列空间(即对齐),进而利用这些对齐后的激活值恢复模型权重。具体地,攻击者通过观察多次推理中暴露的shuffled激活,利用激活值之间的统计关联推断出排列关系,实现高精度对齐。在Pythia-70m和GPT-2上的实验表明,所提出的攻击可以将shuffled激活对齐到均方误差仅为10^{-9}到10^{-6}的水平。进一步,在查询成本约为1美元的条件下,敌手恢复出的模型权重与真实权重之间的L1范数差异仅为10^{-4}到10^{-2},几乎完全恢复。该工作揭示了shuffling防御的根本缺陷,提示安全推断设计中需要更加稳健的保护机制。

💡 推荐理由: shuffling防御曾被认为是保护模型权重的有效方案,本论文证明其本质上不安全,攻击者能以极低成本(约1美元)恢复Transformer模型权重,对依赖该技术的安全推断系统构成直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hao Luan, Xue Tan, Zhiheng Li, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文提出一种基于自监督学习的模型提取攻击方法,旨在同时实现数据集缩减和水印移除。传统模型提取攻击通常需要大量查询和完整训练数据,且可能保留原始模型的水印。作者利用自监督学习(如对比学习)从目标模型中提取知识,仅需少量未标记样本即可训练一个紧凑的替代模型。该方法通过构建正负样本对进行对比学习,使替代模型模仿目标模型的表示空间,从而在减少数据集规模(例如仅需原始数据集的10%)的同时,有效消除嵌入在目标模型中的水印。实验在多个图像分类数据集(CIFAR-10, CIFAR-100, SVHN)和不同架构(ResNet, VGG)上进行,结果显示替代模型在保持高准确率(接近目标模型)的同时,水印移除成功率显著高于基线方法。该研究揭示了自监督学习在模型窃取中的潜力,对模型水印保护机制构成新挑战。

💡 推荐理由: 该研究暴露了自监督学习可被用于高效模型窃取并绕过水印保护,威胁模型知识产权和安全性,需引起防御方重视。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Minkyung Park, Zelun Kong, DaveTian, Z. Berkay Celik, Chung Hwan Kim

该论文研究了在 Intel SGX(Software Guard Extensions)安全飞地中部署深度神经网络(DNN)模型时,攻击者如何通过侧信道攻击泄露模型架构的隐私问题。Intel SGX 旨在保护飞地内代码和数据的机密性,但先前的研究表明,攻击者可通过观察内存访问模式或执行时间等侧信道信息来推断模型结构。本文提出了一种名为“DNN Latency Sequencing”的新型攻击方法,利用单步执行(single-stepping)技术来精确测量每条指令的执行延迟,从而推断出 DNN 的层类型、层顺序、卷积核大小、通道数等架构参数。攻击者通过在操作系统级别控制时间片或利用调试机制实现单步执行,并记录每个操作的时间戳。由于不同层(如卷积层、池化层、全连接层)的计算模式导致指令序列的延迟特征不同,攻击者可以使用机器学习分类器对延迟序列进行匹配,从而重建出完整的神经网络架构。实验在多个主流 DNN 模型(如 VGG、ResNet 等)上进行,结果表明该方法能够以高准确率(平均超过90%)提取模型架构,即使飞地内采取了简单的防护措施。论文还讨论了针对该攻击的潜在防御方案,如引入随机延迟或使用恒定时间实现,但指出这些方案可能带来显著的性能开销。该研究强调了在可信执行环境中保护 DNN 模型架构面临的挑战,为安全社区提供了新的攻击视角和防御思路。适合关注深度学习安全、侧信道攻击及可信执行环境的从业人员阅读。

💡 推荐理由: 首次展示了通过单步执行侧信道攻击精确提取SGX飞地内DNN架构的方法,揭示了当前TEE保护下模型架构的脆弱性,对云环境中的模型部署安全有直接警示作用。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)