#knowledge-distillation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yilan Gao, Sida Huang, Hongyuan Zhang, Xuelong Li

本文针对文本到图像生成模型(如 Stable Diffusion)在作为云端 API 服务部署时面临的模型窃取攻击展开研究。攻击者可以通过反复查询 API 收集大量生成的合成图像,并用这些图像训练私有替代模型,从而实现未经授权的知识蒸馏和能力复制,而无需访问原始模型权重。现有防御方法难以在保持输出图像视觉质量、提供显式扰动幅度控制以及高效处理大规模输出之间取得平衡。为此,作者提出了一种基于单次生成器(single-pass)的保护框架 WaveGuard。WaveGuard 采用频率感知的扰动生成器,在用户指定的扰动预算下对每张合成图像注入结构化、不可感知的扰动。这些扰动对于正常观看者几乎不可见,但能显著降低受保护图像作为训练数据对未授权学生模型的有效性。在 WikiArt 数据集上的合成输出蒸馏实验表明,WaveGuard 在有效性、保真度和效率三者之间取得了良好权衡,实现了显式的不可感知性控制,并大幅提升了保护效率。该方法不需要修改原始生成模型,仅需在输出图像上叠加扰动,可无缝集成到现有 API 管道中。

💡 推荐理由: 随着生成式AI服务商业化,模型窃取成为重大安全威胁。本文提出一种实用、高效的防御方案,在不影响用户体验的前提下干扰攻击者训练替代模型,对保护商业模型知识产权具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)