推荐 8.5
Conf: 50%
本文针对人工智能模型水印(model watermarking)面临的核心挑战——模型提取攻击(model extraction attack),提出了一种基于排练(rehearsal)的水印嵌入框架,以增强水印鲁棒性。模型水印通过嵌入独特知识使模型产生特有行为特征来保护知识产权,但攻击者可利用模型预测输出训练替代模型(surrogate model)非法复制原模型功能。现有水印通常在面对模型提取攻击时容易失效。本文方法通过模拟提取过程,使用一个模拟被盗模型(simulated stolen model)在触发集(trigger set)上的损失作为训练信号,对目标模型中的水印知识进行微调。该过程鼓励水印以提升可迁移性(transferability)的方式嵌入,从而增加水印在盗用模型中持续存在且可被检测的机会。在多种设置下的综合实验表明,所提方法显著提升了水印在对抗模型提取攻击及后续水印移除攻击(watermark removal attack)时的鲁棒性。本研究适用于AI安全领域研究人员及模型开发者,为模型版权保护提供了新思路。
💡 推荐理由: 模型提取攻击是AI模型知识产权最严重的威胁,本工作提出的排练式水印嵌入框架有效提升了水印在盗用模型中的存活率,为保护模型版权提供了实用方案。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)