#model-watermarking 主题 - Cyber Security Daily Radar

👥 作者: Torsten Krauß, Jasper Stang, Alexandra Dmitrienko

本文提出了一种名为 ClearStamp 的模型所有权证明方案，旨在解决深度学习模型在发布后被非法复制或盗用时难以确权的问题。现有模型水印方法通常将水印嵌入到模型参数中，但这些水印往往不可见，且容易受到模型压缩、微调、剪枝等操作的破坏。ClearStamp 的核心创新在于引入转置模型训练（Transposed Model Training）的概念：在已训练好的原始模型之后，额外训练一个结构对称的转置模型，并将人类可见的水印（如文本或图案）直接嵌入到这个转置模型中。水印的嵌入过程利用了转置模型与原始模型之间的梯度耦合，使得水印能够传递到原始模型的输出中，但实际的水印参数仅存在于转置模型中。这种方式使得水印对于攻击者而言更难去除，因为要移除水印需要同时修改原始模型和转置模型；同时，水印具有人类可验证性，无需依赖第三方或秘密参数。实验在多个图像分类数据集（如 CIFAR-10、CIFAR-100、ImageNet）以及不同模型架构（ResNet、VGG、ViT）上进行，结果显示 ClearStamp 在面对模型压缩（如量化、剪枝）、微调、蒸馏等常见攻击时，水印保留率显著高于现有方法（如 Backdoor 水印、参数水印）。此外，ClearStamp 对原始模型性能的影响极小（准确率下降不超过 1%），且水印检测无需访问训练数据或模型内部参数，只需通过推理接口即可验证。文章还讨论了水印的不可去除性（robustness）和透明性（transparency）之间的权衡。总体而言，ClearStamp为模型所有权保护提供了一种新颖、鲁棒且实用的技术方案。

💡 推荐理由: 该方案解决了AI模型被盗用后的确权难题，提供一种人类可见且鲁棒的水印机制，可有效威慑模型窃取行为，对模型发布方和云服务商具有实际应用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shuo Shao 0002, Yiming Li 0004, Hongwei Yao, Yiling He, Zhan Qin, Kui Ren 0001

模型所有权验证是保护模型版权的重要事后方法，现有的主流方案是后门水印，但存在两个致命缺陷：有害性（引入可被恶意利用的误分类行为）和歧义性（恶意用户可轻易通过寻找其他误分类样本来通过验证）。本文指出这些局限源于现有水印方案的“零比特”性质——它们仅利用预测的误分类状态进行验证。受此启发，作者提出了一种新的水印范式“解释即水印”（Explanation as a Watermark, EaaW），将验证行为嵌入特征归因的解释中，而非模型预测。具体而言，EaaW在特定触发样本的特征归因解释中嵌入“多比特”水印，同时保持原始预测不变。受可解释人工智能启发，作者设计了水印嵌入与提取算法，该方法适用于图像分类和文本生成等不同任务。大量实验证明了EaaW的有效性和无害性，以及其抵抗潜在攻击的能力。该研究为模型所有权验证提供了全新思路，避免了后门水印的安全风险，具有重要的理论价值和实践意义。

💡 推荐理由: 解决了现有模型水印方法的有害性和歧义性两大痛点，提出一种无害、多比特的新范式，可推广至多种AI任务，为模型版权保护提供更安全可靠的方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jian-Ping Mei, Weibin Zhang, Ao Yao, Tiantian Zhu, Jie Xiao

本文针对人工智能模型水印（model watermarking）面临的核心挑战——模型提取攻击（model extraction attack），提出了一种基于排练（rehearsal）的水印嵌入框架，以增强水印鲁棒性。模型水印通过嵌入独特知识使模型产生特有行为特征来保护知识产权，但攻击者可利用模型预测输出训练替代模型（surrogate model）非法复制原模型功能。现有水印通常在面对模型提取攻击时容易失效。本文方法通过模拟提取过程，使用一个模拟被盗模型（simulated stolen model）在触发集（trigger set）上的损失作为训练信号，对目标模型中的水印知识进行微调。该过程鼓励水印以提升可迁移性（transferability）的方式嵌入，从而增加水印在盗用模型中持续存在且可被检测的机会。在多种设置下的综合实验表明，所提方法显著提升了水印在对抗模型提取攻击及后续水印移除攻击（watermark removal attack）时的鲁棒性。本研究适用于AI安全领域研究人员及模型开发者，为模型版权保护提供了新思路。

💡 推荐理由: 模型提取攻击是AI模型知识产权最严重的威胁，本工作提出的排练式水印嵌入框架有效提升了水印在盗用模型中的存活率，为保护模型版权提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#model-watermarking

ClearStamp: A Human-Visible and Robust Model-Ownership Proof based on Transposed Model Training.

Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution.

T2S: A Rehearsal-Based Approach for Extraction-Resistant Model Watermarking