#model-fingerprinting

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

本文提出了一种针对文本到图像(T2I)扩散模型的高效、鲁棒且抗合谋的模型指纹识别方法。现有模型指纹技术通过向生成图像嵌入用户特定标识符来保护知识产权,但普遍存在一个未探索的系统性漏洞:它们缺乏对抗合谋攻击的鲁棒性。合谋攻击中,多个攻击者联合其模型以移除或隐藏指纹。为此,本文首次提出具有抗合谋能力的T2I模型指纹方法。该方法将二进制位字符串(指纹)编码到个性化归一化模块(PNM)的系数中,该模块被集成到T2I模型中,使得从任何生成图像中都能可靠地恢复指纹。为防御合谋攻击并防止未授权模型再分发,引入了一种基于无损函数不变参数变换的抗合谋机制,该机制显著降低合谋模型的图像生成质量(通过增加FID指标),使其实际上不可用。此外,该方法允许开发者通过重新参数化PNM高效地创建多个带指纹的T2I模型副本,而无需重新训练。还引入了一种最坏情况优化策略,以提高对模型级攻击的鲁棒性。实验表明,该方法在多个T2I图像生成和编辑任务中实现了高保真度和鲁棒性,指纹提取准确率超过99.5%。与现有方法相比,该方法首次通过显著增加合谋模型的FID,展现出对合谋攻击的主动鲁棒性。该研究适合AI安全研究人员、模型开发者及知识产权保护相关从业者阅读。

💡 推荐理由: 揭示了现有模型指纹方法在合谋攻击下的系统性漏洞,并首次提出有效的抗合谋方案,对保护生成式AI模型的版权和防止非法分发具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yijia Fang, Yiqing Feng, Bingyu Li, Mingxun Zhou

本文提出了一种名为 KBF(Knowledge Boundary as Fingerprint)的低成本黑盒审计协议,用于检测大型语言模型(LLM)API 中模型替换或混合路由攻击。在 LLM 生态中,转售 API 和中间商可能欺诈性地将用户请求转发到更便宜的模型(如用 GPT-3.5 代替 GPT-4),而用户无法直接验证。KBF 的核心思想是利用 LLM 在知识边界(knowledge boundary)附近的稳定数值召回率(recall)作为模型指纹。具体方法:设计一组专门的问题,这些问题考察模型对罕见事实或边界知识的回忆能力,通过统计模型回答的正确率,形成稳定的分布特征。作者在 16 个生产级 LLM 端点上进行评估,KBF 成功识别了所有 155 个经济上相关的模型替换案例,且未误报任何相同模型的控制测试。该方法对部署变化(如温度、批次大小)具有鲁棒性,并能检测到混合路由攻击(仅 5-10% 流量被替换时即可识别)。进一步,在针对六个平台 27 个模型单元的影子 API 审计中,发现其中 7 个单元与参考端点的统计特征不一致,不一致主要集中在高级 Claude 端点上。论文的核心贡献是提供了一种无需访问模型内部结构、仅需黑盒查询即可验证模型身份的方法,对于保障 LLM API 服务的透明性和可信度具有重要意义。

💡 推荐理由: LLM API 代理欺诈日益普遍,用户难以验证模型真伪。KBF 提供低成本的审计手段,帮助安全团队和用户检测模型替换攻击,保护服务质量和预算。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)