#watermark

共收录 7 条相关安全情报。

← 返回所有主题
推荐 10.5
Conf: 50%
👥 作者: Guang Yang, Amir Ghasemian, Fengchen Liu, Zhong Wang, Ninareh Mehrabi, Homa Hosseinmardi

这篇论文针对大型语言模型(LLM)API服务中难以检测的未授权知识蒸馏问题,提出了一种新颖的交互层反蒸馏水印方案。现有防御手段主要在教师模型的输出token层面施加水印,例如绿名单水印、密码学方案或反蒸馏采样,但这些方法容易被攻击者通过改写(paraphrasing)绕过,因为攻击者可以改变输出文本而不损失核心知识。作者主张将水印提升到交互行为层面:在教师模型响应时,通过系统提示注入间歇性的行为标记,例如明确的追问(如“您需要进一步澄清吗?”)、低频词汇变体(如使用不常见的同义词)或声明性重述(如把答案换个说法重复一遍)。无意的蒸馏者会继承这些行为模式,而防御者可以通过黑盒查询,利用经过人类验证的LLM裁判(LLM-as-judge)来审计学生模型是否表现出类似行为。实验中,以Llama-3.3-70B-Instruct为教师,对63个经过LoRA蒸馏的学生模型(涵盖Gemma、OLMo、Qwen等架构)进行了评估,共判断35,343个样本。结果显示,行为水印在不同学生模型上的转移保真度分别为:Gemma 88.9%、OLMo 80.9%、Qwen 45.2%。在非自适应DIPPER改写攻击下,鲁棒性分解为教师自身上限(约66.4%)和学生相对保留率21-112%,其中OLMo的水印保留率甚至超过教师本身。低密度(约20%)的显式和隐式声明性变体在各自家族基线上表现出显著转移。此外,一个N=20的室内实验(预注册拉丁方设计)表明,所有标记变体与基线在利克特量表上的差异均在0.22步以内,统计检验支持假设。该研究提出交互层作为反蒸馏水印的可行设计空间,与token层、模型层和推理轨迹层防御互补。

💡 推荐理由: 该研究为LLM服务提供者提供了检测模型被盗用的新手段,弥补传统输出层水印易被改写攻击绕过的缺陷,对保护模型知识产权和API安全有重要价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Juho Kim, Fei Fang, Tuomas Sandholm

本文首次研究了如何在完美信息扩展式博弈(如国际象棋)中对游戏代理的策略进行水印标记。受大型语言模型(LLM)水印技术(尤其是KGW方案)启发,作者提出了一种适应博弈场景的水印方法:在代理的策略中嵌入隐蔽信息,使得第三方可通过统计检验验证策略来源。该方法通过调整策略分布来嵌入水印,同时保证期望效用损失有界,但可检测性与策略质量之间存在权衡。实验在多种国际象棋引擎上评估,结果表明:水印对策略质量(如胜率)的影响可忽略不计,且仅需少量对局(例如5-10局)即可高置信度检测出水印。该工作为检测在线棋类游戏中的AI作弊(如未经授权使用强AI引擎)提供了技术基础,也拓展了水印技术在博弈领域的应用。核心贡献包括:形式化定义博弈代理水印问题、提出具体实现方案、理论分析效用损失界、以及实验验证有效性和低开销。

💡 推荐理由: 该研究填补了博弈代理水印的空白,为在线游戏平台(如国际象棋)反AI作弊提供了可操作的检测手段,同时为LLM水印技术向更广域智能代理安全拓展奠定了理论基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Su Zhang, Junfeng Guo, Heng Huang

该论文提出了一种名为 FedAttr 的新协议,用于在联邦学习(FL)环境下对大型语言模型(LLM)微调过程进行客户端级别的归属分析。传统的基于水印的放射性检测方法已证明在集中式LLM微调中有效,但在联邦学习中面临挑战:联邦学习依赖安全聚合(SA)来保护客户端更新的隐私,这使得检测哪个客户端使用了带水印的数据变得困难。FedAttr 通过配对子集差分机制实现客户端归属,同时不破坏安全聚合的隐私保证和联邦学习性能。协议分三步:首先,通过两次安全聚合查询的差分估计每个客户端的更新;其次,利用差分评分机制通过水印检测器对估计结果打分;最后,使用Stouffer方法跨轮次合并分数。理论分析表明,FedAttr 能产生每个客户端更新的无偏估计,且每轮互信息泄漏量为 O(d*/N)。实验结果显示,FedAttr 在真实数据集上实现了100%的TPR和0%的FPR,在TPR上至少优于所有基线44.4%,在FPR上至少优于19.1%,且仅增加FL训练时间6.3%的额外开销。消融研究证实了其对协议参数和配置的鲁棒性。该工作填补了联邦LLM微调中隐私保护客户端归属的空白,特别适用于数据版权保护场景。

💡 推荐理由: 联邦LLM微调中缺乏客户端级别水印归属方法,FedAttr首次在不牺牲安全聚合隐私的前提下实现高精度归属,为数据版权追溯提供可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jiangnan Zhu, Yuntao Wang, Shengli Pan, Yujie Gu

该论文提出了一种名为 Vol-Mark 的新型可逆零水印方法,用于保护远程医疗中 3D 医学体积数据的完整性和所有权。针对医学体积数据在网络共享中面临的数据篡改和未授权复制等安全风险,Vol-Mark 设计了两个核心组件:一是利用对比学习构建的体积特征提取器,能够高效提取具有判别性和稳定性的体积特征,增强对 3D 攻击的鲁棒性;二是引入了立方体差异扩展(c-DE)技术,基于三维整数小波变换将水印比特嵌入到低频系数的邻域体素中,通过扩展立方体内的体素差异来创建嵌入空间,并在提取时采用多数投票机制提高可靠性。该嵌入过程失真低且支持无损移除,从而保持医学体积数据的完整性和诊断精度。Vol-Mark 首先进行完整性验证,再通过假设检验进行所有权验证,以增强在数据篡改或水印移除攻击下的可靠性。实验结果表明,Vol-Mark 在常规、几何和混合攻击下均表现出优越的鲁棒性,在多数攻击场景下准确率(ACC)保持在 0.90 以上,显著优于现有方法。

💡 推荐理由: 医学体积数据是远程医疗的关键资产,其安全共享面临篡改和盗版风险。Vol-Mark 提供了一种可逆零水印方案,既能验证完整性又能在不损伤诊断精度的前提下确权,对保护患者数据和医疗知识产权具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Cong Kong, Xin Cheng, Zhaoxia Yin, Shuai Li, Jie Zhang, Weiming Zhang

随着垂直领域预训练语言模型(VPLMs)在医疗、金融、法律等专业领域的广泛应用,模型参数和推理能力已成为重要的数字资产。如何实现VPLMs的可追溯版权验证成为一个迫切挑战。现有的版权验证方法主要依赖向模型嵌入后门水印,但这些方法大多需要额外的训练过程,水印嵌入效率低下,且缺乏面向多垂直领域的可扩展设计。针对上述局限,本文提出了VertMark——首个统一的、无需训练且鲁棒的版权水印框架,适用于多个垂直领域的VPLMs。该框架通过一种无训练的参数替换策略,在低频触发令牌与高频领域相关词之间建立隐藏的语义等价关系,从而嵌入带有所有权编码的水印。实验在医疗、金融、法律三大领域的文本理解和文本生成下游任务上验证了VertMark的有效性:它能够实现高效的水印嵌入和可靠的水印验证,同时对模型性能的影响可忽略不计。此外,VertMark对剪枝、量化等多种攻击展现出强鲁棒性,凸显了其实用价值,为VPLMs的版权安全提供了有力保护。本文适合模型提供方、安全研究人员及关注知识产权保护的技术从业者阅读。

💡 推荐理由: 本文提出了一种针对垂直领域预训练语言模型的无需训练、可扩展的水印方案,可有效防止模型被非法复制或滥用,为模型版权保护提供了新的技术手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziming Zhang, Li Li, Guorui Feng, Hanzhou Wu, Xinpeng Zhang

大型语言模型(LLM)因其强大的推理能力被广泛部署于多种场景,但同时也面临被滥用的风险。为了确保模型所有权,通常采用水印技术。然而,现有大多数水印方法仅对模型的输出分布进行表层修改,导致水印容易受扰动或去除。针对这一挑战,本文提出了一种名为冗余思维链(R-CoT)的推理层水印框架,将水印嵌入模型的推理路径中。R-CoT 基于 GRPO(分组相对策略优化)设计了一种双轨迹优化机制,使原生推理路径和水印推理路径能够在共享参数空间内共存,从而将水印内化为一种独特的推理策略。这样一来,水印被嵌入模型稳定的推理路径中,避免了因输出级扰动(如文本后处理、同义词替换等)导致水印失效的问题。实验结果表明,与现有方法相比,R-CoT 在保持高水印有效性的同时具有极强的鲁棒性。在微调等后训练操作下,其真阳性率(TPR)始终保持在 95% 以上,仅出现轻微下降。本文的主要贡献在于:1) 首次在推理层嵌入水印,而非输出层;2) 提出双轨迹优化机制实现水印与原生推理策略的共存;3) 实验证明该方法对微调等操作具有高度鲁棒性。该研究适合 LLM 安全研究人员、模型部署方以及关注知识产权保护的从业者阅读。

💡 推荐理由: R-CoT 提供了一种新型推理层水印方法,相比传统表层水印更鲁棒,能有效防止模型被微调或扰动后水印失效,对 LLM 的版权保护和溯源具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出SSG方法,通过对数几率平衡的词汇分区提升LLM水印在低熵场景(代码生成、数学推理)下的检测能力。

💡 推荐理由: LLM水印是内容溯源的关键技术,但现有KGW方案在低熵场景下效果差。SSG改进了这一局限,对AI生成内容的版权保护与安全审计具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)