#distillation-protection 主题 - Cyber Security Daily Radar

👥 作者: Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

本文提出 TextSeal，一种用于大型语言模型（LLM）的本地化水印方案，旨在解决模型输出的来源追踪与蒸馏保护问题。该方法基于 Gumbel-max 采样，通过引入双密钥生成机制恢复输出多样性，并利用熵加权评分和多区域定位技术提升检测精度。TextSeal 支持推测解码和多 token 预测等服务优化，且不引入任何推理开销。在检测强度上，TextSeal 严格优于 SynthID-text 等基线方法，对文本稀释具有鲁棒性，即使在人类与 AI 内容高度混合的文档中也能实现可靠的本地化检测。方案理论上是无失真的，在推理基准测试中下游性能保持不变；跨 5 种语言的 6000 次 A/B 人类评估显示无感知质量差异。除了用于来源检测，TextSeal 还具有“放射性”：其水印信号会通过模型蒸馏传递，从而能够检测未授权的模型使用。该工作适合 LLM 服务提供商、内容认证机构及模型安全研究人员阅读。

💡 推荐理由: 为 LLM 输出提供一种高效、鲁棒的本地化水印方法，在无推理开销的前提下实现强检测与蒸馏保护，对内容溯源和知识产权保护具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#distillation-protection

TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection