#model-stealing 主题 - Cyber Security Daily Radar

👥 作者: Tianshuo Cong, Xinlei He 0001, Yang Zhang 0016

自监督学习作为一种新兴的机器学习范式，利用无标签数据预训练强大的编码器，这些编码器可作为特征提取器服务于各种下游任务。然而，由于预训练过程需要大量数据和计算资源，编码器本身成为模型所有者的宝贵知识产权。研究表明，模型窃取攻击通过训练替代模型来模仿原始模型行为，严重威胁版权保护。现有版权保护方法（如水印）主要针对分类器，而预训练编码器的版权保护面临独特挑战。本文提出 SSLGuard，首个专为预训练编码器设计的水印方案。SSLGuard 在干净的预训练编码器中注入水印，生成带水印版本，并采用影子训练技术确保水印在潜在模型窃取攻击下仍可保留。通过大量实验，SSLGuard 在水印注入与验证上表现出色，且对模型窃取、输入噪声、输出扰动、覆盖攻击、模型剪枝和微调等水印移除攻击具有鲁棒性。该工作填补了预训练编码器版权保护的空缺，为 AI 模型知识产权保护提供了新思路。

💡 推荐理由: 自监督学习编码器作为核心资产，面临模型窃取威胁。SSLGuard 首次提供水印保护方案，对保护企业 AI 模型版权、防止滥用具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Eliott Baltz, Satoshi Hara, Ulrich Aïvodji

该论文从模型多重性的角度重新审视了模型窃取攻击的传统观点。通常认为，攻击者通过查询目标模型构建高保真代理模型，可以获得与原始服务提供商相近的经济优势。然而，论文指出由于查询提取只能提供目标模型输入输出行为的部分监督，代理模型并非唯一确定：存在多个近最优代理模型（即Rashomon Set），它们在保真度上相似，但在部署相关的其他性能指标（如公平性、鲁棒性等）上可能存在显著差异。作者没有采用经典的基于学习的模型窃取攻击，而是通过计算代理模型的Rashomon Set，并使用多重性指标（模糊性、差异性、Rashomon容量）和群体公平性指标来评估其多样性。在表格数据、医学影像和NLP任务上的实验表明，尽管代理模型对目标模型的保真度相近，但在其他关键性能指标上可能存在巨大差异。这些发现质疑了高保真代理模型与目标模型在实际部署场景中等价性的假设，对模型窃取攻击的风险评估提供了新的视角。

💡 推荐理由: 该论文挑战了模型窃取攻击中'高保真代理即等价于原始模型'的传统认知，揭示了代理模型在保真度之外的其他性能维度存在显著不确定性，对评估模型知识产权风险具有重要的理论指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Maxime Schwarzer, Laurin Holz, Tobias Huerten, Johannes Loevenich, Thies Moehlenhof, Roberto Rigolin F. Lopes, Veit Hagenmeyer

该论文针对能源基础设施中基于人工智能的入侵检测系统（IDS）面临的模型窃取攻击问题，提出了一种新型防御方法FlowGuard。模型窃取攻击允许攻击者通过查询IDS来复制其决策边界，从而离线生成逃避检测的恶意流量。现有防御方法存在两个主要缺陷：一是基于身份的查询监控（如PRADA）无法抵御分布式攻击（Sybil攻击），因为攻击者可以伪装成多个独立客户端；二是通过软标签扰动进行预测中毒的方法不适用于硬标签IDS（只能输出离散类别）。FlowGuard利用流匹配（Flow Matching）技术，在不依赖查询者身份的前提下，通过在IDS处理之前将传入查询分类为分布外（OOD）样本进行防御。其核心思想是：用于数据无关模型窃取攻击（如MAZE、DisGUIDE）的合成查询通常位于比真实网络流量更低维度的流形上，因此使用已在合法数据上训练的连续归一化流（Continuous Normalizing Flow）计算出的对数似然值会显著更低。实验部分，作者在单客户端和分布式（100客户端Sybil）设置下，针对PRADA和FDINet方法进行评估。结果表明，当数据分布变化时，PRADA的检测率降至0%，而FlowGuard在两个设置下均保持稳定的检测率，且不依赖身份信息。论文还讨论了该方法的适用范围和局限性，并提出了对数据相关攻击的潜在应用方向。适合安全研究人员、IDS开发者和能源系统安全工程师阅读。

💡 推荐理由: 该工作填补了硬标签IDS场景下抗模型窃取防御的空白，且不依赖客户端身份，能应对分布式Sybil攻击，对保护能源关键基础设施的机器学习模型具有实际意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#model-stealing

SSLGuard: A Watermarking Scheme for Self-supervised Learning Pre-trained Encoders.

Model Stealing Through the Lens of Model Multiplicity

FlowGuard: Flow Matching for Identity-Independent Detection of Data-Free Model Stealing Attacks on Energy System Intrusion Detection Systems