#model-fingerprinting 主题 - Cyber Security Daily Radar

👥 作者: Keyu Zhang, Vadim Safronov, Andrew Martin

该论文研究了大语言模型（LLM）的来源追踪（provenance testing）问题，即判断一个待检模型是否与某个源模型属于同一训练或开发谱系。现有黑盒方法大多依赖于模型输出文本的表面特征，但这些特征在模型经过微调、适配或部署环境变化时容易发生漂移，即使模型的语义理解并未改变，导致来源判定的可靠性下降。为了克服这一局限，作者提出将模型对开放型问题的输出映射到有限且离散的决策空间，从而抽象掉表面形式的变化，将来源测试转化为对“诱导决策区域”（induced decision regions）继承性的度量。基于这一思路，论文提出了Stemma，一种实用的黑盒LLM指纹识别方法。Stemma将稳定性、鲁棒性和特异性作为互补的探针选择原则，以可靠地估计决策区域的继承程度。实验环节中，作者使用56个公开检查点构建了770对源-嫌疑模型对，覆盖多种模型权重变换，Stemma取得了0.967的AUC，以及1%假阳性率下87.8%的真阳性率，显著优于四种代表性基线。此外，在覆盖91个部署实例的1260对模型上，Stemma达到了0.995的AUC和1%假阳性率下93.5%的真阳性率，证明了其对多样化推理时部署设置的鲁棒性。该研究的主要贡献包括：提出决策区域继承作为LLM来源信号、设计三种互补的探针选择原则、构建大规模评测基准，并验证了方法在不同变换和部署条件下的有效性。适合AI安全研究者、模型治理与审计人员阅读。

💡 推荐理由: LLM来源追踪是模型知识产权保护和供应链安全的关键能力。Stemma通过决策区域继承提供了一种抗表面漂移的黑盒方法，显著提升溯源准确性，对检测模型盗用、违规微调或未经授权的衍生模型具有实际价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

本文提出了一种针对文本到图像（T2I）扩散模型的高效、鲁棒且抗合谋的模型指纹识别方法。现有模型指纹技术通过向生成图像嵌入用户特定标识符来保护知识产权，但普遍存在一个未探索的系统性漏洞：它们缺乏对抗合谋攻击的鲁棒性。合谋攻击中，多个攻击者联合其模型以移除或隐藏指纹。为此，本文首次提出具有抗合谋能力的T2I模型指纹方法。该方法将二进制位字符串（指纹）编码到个性化归一化模块（PNM）的系数中，该模块被集成到T2I模型中，使得从任何生成图像中都能可靠地恢复指纹。为防御合谋攻击并防止未授权模型再分发，引入了一种基于无损函数不变参数变换的抗合谋机制，该机制显著降低合谋模型的图像生成质量（通过增加FID指标），使其实际上不可用。此外，该方法允许开发者通过重新参数化PNM高效地创建多个带指纹的T2I模型副本，而无需重新训练。还引入了一种最坏情况优化策略，以提高对模型级攻击的鲁棒性。实验表明，该方法在多个T2I图像生成和编辑任务中实现了高保真度和鲁棒性，指纹提取准确率超过99.5%。与现有方法相比，该方法首次通过显著增加合谋模型的FID，展现出对合谋攻击的主动鲁棒性。该研究适合AI安全研究人员、模型开发者及知识产权保护相关从业者阅读。

💡 推荐理由: 揭示了现有模型指纹方法在合谋攻击下的系统性漏洞，并首次提出有效的抗合谋方案，对保护生成式AI模型的版权和防止非法分发具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yijia Fang, Yiqing Feng, Bingyu Li, Mingxun Zhou

本文提出了一种名为 KBF（Knowledge Boundary as Fingerprint）的低成本黑盒审计协议，用于检测大型语言模型（LLM）API 中模型替换或混合路由攻击。在 LLM 生态中，转售 API 和中间商可能欺诈性地将用户请求转发到更便宜的模型（如用 GPT-3.5 代替 GPT-4），而用户无法直接验证。KBF 的核心思想是利用 LLM 在知识边界（knowledge boundary）附近的稳定数值召回率（recall）作为模型指纹。具体方法：设计一组专门的问题，这些问题考察模型对罕见事实或边界知识的回忆能力，通过统计模型回答的正确率，形成稳定的分布特征。作者在 16 个生产级 LLM 端点上进行评估，KBF 成功识别了所有 155 个经济上相关的模型替换案例，且未误报任何相同模型的控制测试。该方法对部署变化（如温度、批次大小）具有鲁棒性，并能检测到混合路由攻击（仅 5-10% 流量被替换时即可识别）。进一步，在针对六个平台 27 个模型单元的影子 API 审计中，发现其中 7 个单元与参考端点的统计特征不一致，不一致主要集中在高级 Claude 端点上。论文的核心贡献是提供了一种无需访问模型内部结构、仅需黑盒查询即可验证模型身份的方法，对于保障 LLM API 服务的透明性和可信度具有重要意义。

💡 推荐理由: LLM API 代理欺诈日益普遍，用户难以验证模型真伪。KBF 提供低成本的审计手段，帮助安全团队和用户检测模型替换攻击，保护服务质量和预算。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#model-fingerprinting

Stemma: Induced Decision Regions Reveal LLM Provenance

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models

KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing