#llm-watermark 主题 - Cyber Security Daily Radar

👥 作者: Joeun Kim, HoEun Kim, Young-Sik Kim

本文针对大型语言模型（LLM）输出的多比特水印鲁棒性问题，提出一种基于对数似然比（LLR）的软判决解码方法CORE-BREW。现有基于纠错码（ECC）的LLM水印多采用硬判决解码，丢弃了令牌级别的可靠性信息，导致在编辑攻击（如词汇替换、改写）下鲁棒性不足。CORE-BREW是块状BREW方法的恒定命中率嵌入扩展，通过设定固定目标命中率p*来校准水印信道，从而推导出每个令牌闭合形式的LLR，实现有原则的软判决解码。该方法支持两种检测模式：严格安全模式保留有界距离指定码字接受域，保证严格的误报控制；FPR校准模式采用基于似然的评分和轻量级列表解码，刻画误报率与真正率之间的权衡。在开源LLM上的实验表明，CORE-BREW在令牌级编辑和释义攻击下，相比先前多比特水印基线方法，在低误报率下的鉴别能力和鲁棒性均有提升，同时保持相当的语义质量。该研究为LLM水印的可靠溯源提供了新途径，适合从事AI安全、模型防篡改及逆向工程的研究人员阅读。

💡 推荐理由: LLM输出的可追溯性是防范恶意生成内容的关键，CORE-BREW通过软判决解码显著提升了水印在编辑攻击下的鲁棒性，为安全部署LLM提供了更强的防篡改保障。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chih-Duo Hong, Yen-Pang Chen, Fang Yu

本文提出了一种轻量级的检测时间模块——签名过滤（signature filtering），旨在提升大型语言模型（LLM）输出中统计水印的检测性能。现有的水印检测器在水印信号弱、文本重复或水印被编辑时往往表现不佳。签名过滤不修改水印嵌入和文本生成过程，而是学习一小部分“签名”标记，这些标记的存在会使水印测试不可靠，并在检测前将其移除。签名通过在一个小型训练集上求解混合整数线性规划获得，约束条件最大化真阳性率。作者还推导了在几种攻击者模型（色盲、色彩适应和分布相关）下的有限样本和渐近界。在四种知名水印族（Kgw、Sweet、Unigram、Exp）、四个基准语料库（C4、MBPP、HumanEval、Code-Search-Net）和六个LLM（Opt-1.3b、Opt-6.7b、Llama2-13b、Llama3.1-8b、Qwen2.5-14b、Phi-3-medium-14b）上的实验表明，2-gram和3-gram签名在弱信号和低熵设置下将检测率从无过滤时的8-31%提升到78-99%，同时保持假阳性率可控且通常可忽略。在压力测试中（句子打乱、25-50%的令牌被稀释、删除和替换），Kgw风格水印的2-gram过滤器保留了大部分干净文本的检测增益，通常匹配或优于先进的WinMax水印检测器。签名过滤提供了一种简单、可扩展且模型无关的附加模块，用于加强信息处理工作流中LLM文本的基于水印的溯源检查。

💡 推荐理由: 该研究为LLM输出溯源提供了一种轻量级增强方案，无需修改现有水印系统即可显著提升检测率，尤其适用于弱信号和低熵场景，有助于组织更可靠地归因AI生成内容。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

本文提出 TextSeal，一种用于大型语言模型（LLM）的本地化水印方案，旨在解决模型输出的来源追踪与蒸馏保护问题。该方法基于 Gumbel-max 采样，通过引入双密钥生成机制恢复输出多样性，并利用熵加权评分和多区域定位技术提升检测精度。TextSeal 支持推测解码和多 token 预测等服务优化，且不引入任何推理开销。在检测强度上，TextSeal 严格优于 SynthID-text 等基线方法，对文本稀释具有鲁棒性，即使在人类与 AI 内容高度混合的文档中也能实现可靠的本地化检测。方案理论上是无失真的，在推理基准测试中下游性能保持不变；跨 5 种语言的 6000 次 A/B 人类评估显示无感知质量差异。除了用于来源检测，TextSeal 还具有“放射性”：其水印信号会通过模型蒸馏传递，从而能够检测未授权的模型使用。该工作适合 LLM 服务提供商、内容认证机构及模型安全研究人员阅读。

💡 推荐理由: 为 LLM 输出提供一种高效、鲁棒的本地化水印方法，在无推理开销的前提下实现强检测与蒸馏保护，对内容溯源和知识产权保护具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Thibaud Gloaguen, Robin Staab, Mark Vero, Martin Vechev

本文提出了一种名为“二项式多比特LLM水印”的新方法，旨在解决现有LLM水印技术在商业部署中需要编码复杂载荷（如用户ID、时间戳）时面临的精度和鲁棒性不足问题。核心创新在于引入二项式编码机制，直接在每一个令牌（token）位置编码载荷的每一位，实现了对多比特信息的细粒度嵌入。为了克服编码过程中可能出现的某些比特编码不足的问题，作者设计了一种有状态编码器，在生成文本时动态地将编码压力重新分配给欠编码的比特。实验针对多达64比特的载荷，与8种基线方法进行了对比，结果表明所提方案在消息准确率和鲁棒性上均显著优于基线，尤其在载荷较大和失真限制较低的实际场景下优势更为明显。此外，作者批评了以往工作中评估指标缺乏实际意义，并引入每比特置信度评分作为评估多位水印实用性的新指标。本方法为LLM水印的工业级部署提供了更高效、可靠的解决方案，适合AI安全研究人员、大模型服务提供商及需要内容溯源和版权保护的从业者阅读。

💡 推荐理由: 该研究直接针对LLM水印商业部署中的多比特payload需求，提出了更精准、鲁棒的编码方案，有望提升内容溯源和版权保护的实际效果。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhaoxi Zhang 0001, Xiaomei Zhang 0001, Yanjun Zhang, He Zhang 0012, Shirui Pan, Bo Liu 0001, Asif Gill, Leo Yu Zhang

本文研究字符级扰动对大型语言模型（LLM）水印技术的破坏效果。水印技术被广泛用于追踪LLM生成内容，防止滥用。作者系统分析了多种字符级扰动（如拼写错误、同音替换、随机插入等）对当前主流水印方案（如基于n-gram的Aaronson水印、基于软水印的Kirchenbauer方案等）的鲁棒性影响。实验在多个开源LLM（如Llama2、OPT）上进行，结果表明，简单的字符级扰动即可显著降低水印检测的准确率，甚至完全绕过检测。作者进一步探讨了结合语义保持的对抗性扰动，发现更难防御。本文揭示了LLM水印在字符层面的脆弱性，对内容追踪与反滥用领域具有警示意义。

💡 推荐理由: LLM水印是防止AI生成内容滥用的重要手段，但本文揭示其易被字符级扰动绕过，威胁内容溯源与检测机制的有效性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziping Ye, Gourab Dey, Christos Christodoulopoulos, Charith Peris, Anil Ramakrishna, Weitong Ruan, Aram Galstyan, Kai-Wei Chang, Rahul Gupta, Ninareh Mehrabi

SWAN（语义水印与抽象语义表示）是一种新颖的文本水印框架，它利用抽象语义表示（AMR）将水印签名直接嵌入句子的语义结构中。与现有方法在文本生成过程中通过调整令牌选择偏好来编码签名不同，SWAN将签名编码在语义表示层面，因此任何保留语义的释义都会自动保留签名。该框架无需训练：水印注入通过提示大型语言模型（LLM）在保持上下文连贯性的同时，根据选定的AMR模板生成句子来实现；检测则使用现成的AMR解析器，随后进行简单的单比例z检验。在RealNews基准上的实证评估表明，SWAN在未修改的水印文本上达到了与最先进方法相当的检测性能，同时在抵御释义攻击方面显著提升了鲁棒性，与先前方法相比，检测AUC最多提高了13.9个百分点。这些结果证明，SWAN将水印锚定在AMR语义结构中的方法提供了一种简单、有效且基于提示的文本来源验证手段，在释义场景下表现稳健，为语义级水印研究开辟了新途径。

💡 推荐理由: SWAN提出了首个基于AMR语义结构的水印方法，无需训练即可嵌入水印，且对释义攻击具有强鲁棒性，可应用于生成文本的版权保护和来源追踪。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-watermark

CORE-BREW: LLR-Based Soft Decoding for Robust Multi-Bit LLM Watermarking

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection

Every Bit, Everywhere, All at Once: A Binomial Multibit LLM Watermark

Character-Level Perturbations Disrupt LLM Watermarks.

SWAN: Semantic Watermarking with Abstract Meaning Representation