#llm-watermark

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

本文提出 TextSeal,一种用于大型语言模型(LLM)的本地化水印方案,旨在解决模型输出的来源追踪与蒸馏保护问题。该方法基于 Gumbel-max 采样,通过引入双密钥生成机制恢复输出多样性,并利用熵加权评分和多区域定位技术提升检测精度。TextSeal 支持推测解码和多 token 预测等服务优化,且不引入任何推理开销。在检测强度上,TextSeal 严格优于 SynthID-text 等基线方法,对文本稀释具有鲁棒性,即使在人类与 AI 内容高度混合的文档中也能实现可靠的本地化检测。方案理论上是无失真的,在推理基准测试中下游性能保持不变;跨 5 种语言的 6000 次 A/B 人类评估显示无感知质量差异。除了用于来源检测,TextSeal 还具有“放射性”:其水印信号会通过模型蒸馏传递,从而能够检测未授权的模型使用。该工作适合 LLM 服务提供商、内容认证机构及模型安全研究人员阅读。

💡 推荐理由: 为 LLM 输出提供一种高效、鲁棒的本地化水印方法,在无推理开销的前提下实现强检测与蒸馏保护,对内容溯源和知识产权保护具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Thibaud Gloaguen, Robin Staab, Mark Vero, Martin Vechev

本文提出了一种名为“二项式多比特LLM水印”的新方法,旨在解决现有LLM水印技术在商业部署中需要编码复杂载荷(如用户ID、时间戳)时面临的精度和鲁棒性不足问题。核心创新在于引入二项式编码机制,直接在每一个令牌(token)位置编码载荷的每一位,实现了对多比特信息的细粒度嵌入。为了克服编码过程中可能出现的某些比特编码不足的问题,作者设计了一种有状态编码器,在生成文本时动态地将编码压力重新分配给欠编码的比特。实验针对多达64比特的载荷,与8种基线方法进行了对比,结果表明所提方案在消息准确率和鲁棒性上均显著优于基线,尤其在载荷较大和失真限制较低的实际场景下优势更为明显。此外,作者批评了以往工作中评估指标缺乏实际意义,并引入每比特置信度评分作为评估多位水印实用性的新指标。本方法为LLM水印的工业级部署提供了更高效、可靠的解决方案,适合AI安全研究人员、大模型服务提供商及需要内容溯源和版权保护的从业者阅读。

💡 推荐理由: 该研究直接针对LLM水印商业部署中的多比特payload需求,提出了更精准、鲁棒的编码方案,有望提升内容溯源和版权保护的实际效果。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Zhaoxi Zhang 0001, Xiaomei Zhang 0001, Yanjun Zhang, He Zhang 0012, Shirui Pan, Bo Liu 0001, Asif Gill, Leo Yu Zhang

本文研究字符级扰动对大型语言模型(LLM)水印技术的破坏效果。水印技术被广泛用于追踪LLM生成内容,防止滥用。作者系统分析了多种字符级扰动(如拼写错误、同音替换、随机插入等)对当前主流水印方案(如基于n-gram的Aaronson水印、基于软水印的Kirchenbauer方案等)的鲁棒性影响。实验在多个开源LLM(如Llama2、OPT)上进行,结果表明,简单的字符级扰动即可显著降低水印检测的准确率,甚至完全绕过检测。作者进一步探讨了结合语义保持的对抗性扰动,发现更难防御。本文揭示了LLM水印在字符层面的脆弱性,对内容追踪与反滥用领域具有警示意义。

💡 推荐理由: LLM水印是防止AI生成内容滥用的重要手段,但本文揭示其易被字符级扰动绕过,威胁内容溯源与检测机制的有效性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziping Ye, Gourab Dey, Christos Christodoulopoulos, Charith Peris, Anil Ramakrishna, Weitong Ruan, Aram Galstyan, Kai-Wei Chang, Rahul Gupta, Ninareh Mehrabi

SWAN(语义水印与抽象语义表示)是一种新颖的文本水印框架,它利用抽象语义表示(AMR)将水印签名直接嵌入句子的语义结构中。与现有方法在文本生成过程中通过调整令牌选择偏好来编码签名不同,SWAN将签名编码在语义表示层面,因此任何保留语义的释义都会自动保留签名。该框架无需训练:水印注入通过提示大型语言模型(LLM)在保持上下文连贯性的同时,根据选定的AMR模板生成句子来实现;检测则使用现成的AMR解析器,随后进行简单的单比例z检验。在RealNews基准上的实证评估表明,SWAN在未修改的水印文本上达到了与最先进方法相当的检测性能,同时在抵御释义攻击方面显著提升了鲁棒性,与先前方法相比,检测AUC最多提高了13.9个百分点。这些结果证明,SWAN将水印锚定在AMR语义结构中的方法提供了一种简单、有效且基于提示的文本来源验证手段,在释义场景下表现稳健,为语义级水印研究开辟了新途径。

💡 推荐理由: SWAN提出了首个基于AMR语义结构的水印方法,无需训练即可嵌入水印,且对释义攻击具有强鲁棒性,可应用于生成文本的版权保护和来源追踪。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)