推荐 3.5
Conf: 50%
大型语言模型(LLM)因其强大的推理能力被广泛部署于多种场景,但同时也面临被滥用的风险。为了确保模型所有权,通常采用水印技术。然而,现有大多数水印方法仅对模型的输出分布进行表层修改,导致水印容易受扰动或去除。针对这一挑战,本文提出了一种名为冗余思维链(R-CoT)的推理层水印框架,将水印嵌入模型的推理路径中。R-CoT 基于 GRPO(分组相对策略优化)设计了一种双轨迹优化机制,使原生推理路径和水印推理路径能够在共享参数空间内共存,从而将水印内化为一种独特的推理策略。这样一来,水印被嵌入模型稳定的推理路径中,避免了因输出级扰动(如文本后处理、同义词替换等)导致水印失效的问题。实验结果表明,与现有方法相比,R-CoT 在保持高水印有效性的同时具有极强的鲁棒性。在微调等后训练操作下,其真阳性率(TPR)始终保持在 95% 以上,仅出现轻微下降。本文的主要贡献在于:1) 首次在推理层嵌入水印,而非输出层;2) 提出双轨迹优化机制实现水印与原生推理策略的共存;3) 实验证明该方法对微调等操作具有高度鲁棒性。该研究适合 LLM 安全研究人员、模型部署方以及关注知识产权保护的从业者阅读。
💡 推荐理由: R-CoT 提供了一种新型推理层水印方法,相比传统表层水印更鲁棒,能有效防止模型被微调或扰动后水印失效,对 LLM 的版权保护和溯源具有重要实践意义。
🎯 建议动作: 研究跟进
排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)