👥 作者: Tsun On Kwok, Xi Yang, Ki Sen Hung, Chang Liu, Yangqiu Song
该论文提出了 SentinelRAG,一种用于保护专有 RAG(检索增强生成)数据库版权的数字水印框架。现有水印方法存在两个主要问题:一是通过在真实实体之间注入虚假关系来污染知识库,从而引入错误信息;二是嵌入的脆弱词汇模式容易被对抗性改写删除。SentinelRAG 的核心思想是在 RAG 数据库中嵌入风格一致但虚构的知识条目。这些虚构知识描述的是不存在的实体,合法用户查询时几乎不会被检索到,但数据所有者可以通过仅自己知道的特定目标探针可靠地触发检测。实验在四个文档数量从 2.9k 到 8.8M 不等的数据集上进行,结果显示,在仅 0.1% 的注入率下,SentinelRAG 在所有测试配置中均实现了统计显著的检测(p < 10^-5)。与现有技术相比,该方法显著降低了误检率,同时几乎不影响合法用户的查询。该工作为保护知识产权提供了一种新的思路,尤其适用于使用外部数据库的 LLM 应用场景。
💡 推荐理由: 该研究为保护企业级RAG数据库知识产权提供了新方案,能够有效检测未经授权的数据分发,对AI数据资产管理具有实际意义。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Daniel Zhao
该论文提出了一种针对扩散语言模型的全局草图水印方法。与自回归模型中逐token顺序生成并依赖局部上下文的水印方案不同,扩散语言模型在生成过程中同时采样多个未确定位置的分布,使得整个序列的加性统计量在生成时是可处理的。作者利用这一特性,设计了一个控制文本全局向量草图表示的水印机制。该方法通过一个与顺序无关的统计量来检测水印,避免了传统上下文相关水印中表现出的简单令牌偏置问题。论文分析了该方法的失真性(对生成质量的影响)、可靠性(检测准确性)和鲁棒性(抗攻击能力),并提供了理论保证。实验部分(摘要未详述,但推测有)验证了该方法在保持文本质量的同时实现了有效的水印嵌入和检测。该工作为扩散语言模型的可追溯性和版权保护提供了新思路。
💡 推荐理由: 扩散语言模型在文本生成中日益普及,但缺乏有效的水印机制来追溯或防止滥用。该论文提出的全局草图水印方法具有顺序无关性,为检测AI生成内容提供了新工具,尤其适用于需要抗篡改和不可见水印的场景。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Leyi Qi, Yiming Li, Siyuan Liang, Zhengzhong Tu, Dacheng Tao
随着文本到图像(T2I)扩散模型在创意应用中的广泛使用,模型被未经授权使用的问题日益严重,模型所有权验证(MOV)成为保护知识产权的重要手段。现有基于后门的扩散模型水印方法通常隐含假设验证过程是“忠实”的,即验证者可以查询可疑模型并获得可信的水印响应。然而,在实际对抗环境中,攻击者可能有意或无意地破坏水印信号,导致验证可靠性显著下降。针对这一问题,本文提出了 Cert-LAS,这是首个基于层自适应平滑的认证 T2I 模型所有权验证方法。具体而言,Cert-LAS 利用扩散分类器和拉普拉斯频率敏感(LFS)引导的层自适应噪声将指定水印嵌入模型,并通过假设检验验证可疑模型是否表现出比未加水印参考模型显著更强的水印响应。理论上,作者证明了在特定条件下,即使存在恶意移除攻击,Cert-LAS 仍能实现可靠验证。大量实验验证了 Cert-LAS 的有效性及其对自适应攻击的抵抗性。该工作为 T2I 扩散模型的版权保护提供了具有认证保障的解决方案。
💡 推荐理由: 本文首次为 T2I 扩散模型提供了具有认证保障的所有权验证方法,能有效抵抗恶意水印移除攻击,对保护模型知识产权具有重要实用价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yaopeng Wang, Qingliang Wang, Zhibo Wang, Huiyu Xu, Jiacheng Du, Qiu Wang, Jia-Li Yin, Kui Ren
随着低秩适应(LoRA)在文本到图像扩散模型中的广泛使用,轻量级LoRA模块作为独立资产被共享、复用和商业化,形成了以LoRA为中心的生态系统。这种生态将版权保护的需求从基础模型转移到了分布式LoRA模块上,而后者极易被未经授权地复制、重新分发或重用。现有的水印方法要么保护基础扩散模型本身,要么需要为每个目标LoRA进行水印感知的重新训练,这限制了它们在开放社区中的实用性。为克服这一局限,本文提出LoRA-Key,一种以用户为中心的LoRA水印框架,将版权保护视为可复用的所有权密钥。LoRA-Key将一个可恢复的秘密消息封装到一个独立的、用户特定的Watermark LoRA中,该Watermark LoRA可通过免训练的线性叠加附加到不同的目标LoRA上,无需针对每个LoRA重新训练或修改其结构。为训练这种可复用的密钥,作者首先在冻结的VAE潜在空间中建立潜在水印先验,以实现鲁棒的消息嵌入和恢复;然后通过消息条件水印监督和语义一致性约束来优化Watermark LoRA。此外,引入梯度正交投影(GOP)来抑制与语义保持方向冲突的水印更新,减少对生成保真度和下游风格适应的干扰。大量实验表明,LoRA-Key提供了轻量级、即插即用的版权保护,同时保持了生成质量和风格保真度,并在图像级失真、下游微调及多LoRA组合场景下维持了鲁棒的所有权验证。
💡 推荐理由: 为LoRA模块提供了一种无需修改目标LoRA、可复用的水印方案,解决了开放社区中LoRA版权保护的实用性问题。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bing Liu, Shunping Wang, Yufan Zhu, Xinyi Yu, Jing Huang, Linkang Du, Hongbin Pei, Wei Luo
本文是一篇针对大型语言模型(LLM)领域内指纹识别与水印技术的综述论文,旨在统一术语、生命周期阶段和评估目标,为LLM资产保护与溯源建立结构化基础。LLM的研发需要大量数据、算力和专业知识,且正被部署于高风险场景,因此保护LLM相关资产并追踪其来源至关重要。现有工作已在数据集溯源、模型所有权验证和生成内容检测等方面快速扩展,但该领域仍存在碎片化现象:指纹识别与水印的术语使用不一致,方法通常仅在孤立的资产特定场景中研究。为弥补这一差距,论文引入“隐式身份”(implicit identity)作为统一抽象概念,指LLM系统中可验证但不可直接观察的身份信号。区分了两种类型:指纹识别(从内在特性中提取的非侵入式身份)和水印(有意嵌入数据、模型或生成内容中的侵入式身份)。基于此,提出了一个生命周期分类法,将技术按数据集、模型和生成内容三个层面组织,并进一步按验证语义(基于相似性的归因VS基于密钥的验证)细分。最后,建立了一个以可识别性、鲁棒性和可部署性为核心的评估框架,总结了在现实访问和变换场景下的代表性指标。通过统一术语、生命周期阶段和评估目标,该综述为研究LLM身份技术以及开发更可靠的资产保护和溯源机制提供了结构化基础。适合LLM安全研究人员、模型开发者、内容归因系统设计者阅读。
💡 推荐理由: LLM资产保护与溯源成为关键需求,本文首次系统梳理指纹与水印技术,统一术语与评估框架,有助于安全社区建立共识、推动可靠防护方案落地。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Enoal Gesny, Eva Giboulot
随着扩散模型等生成模型的快速普及,数字水印技术已成为识别AI生成图像的关键手段。现代后处理水印方法通常采用神经网络,旨在实现极低的误报率,同时保持对常见图像变换的鲁棒性。然而,这些现代方法与经典水印方法(如Broken-Arrows方案)之间缺乏系统的比较,尤其是在鲁棒性和安全性优先于极低误报率的实际场景中。本文提出了一种公平的比较框架,评估现代与经典后处理水印方法在面对各种经典图像增强和最新复杂攻击时的鲁棒性与安全性。实验结果表明,在现实场景下,经典水印方法在保持同等鲁棒性的同时,在安全性方面优于现代技术。该研究为AI生成图像检测的水印方案选型提供了重要参考,提示安全从业者在实际部署中不应盲目追求低误报率而忽视经典方法的优势。
💡 推荐理由: 该研究揭示了经典水印方法在安全性上反超现代深度学习方法的可能性,对选择AI生成图像检测方案具有直接指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Pengzhen Chen, Yanwei Liu, Xiaoyan Gu, Antonios Argyriou, Wu Liu, Weiping Wang
该论文提出了一种针对全景图像(panoramic imagery)的旋转不变水印方法。全景图像定义在球面上,其内容会随任意3D旋转(SO(3)群作用)而变化,传统平面水印方法或基于数据增强的鲁棒策略无法从理论上保证旋转不变性。作者利用SO(3)表示论,将全景图像建模为球面信号,并推导出可证明的旋转不变描述子。虽然球谐系数在旋转下具有等变性,但直接构造的不变量通常限于零阶统计量(如能量),这会丢失方向信息并严重限制嵌入容量。本文通过张量积耦合高阶SO(3)不可约表示并投影到平凡表示上,提出了一种三阶不变量构造方法,得到球面不变双谱(spherical invariant bispectrum)。该双谱保留相位信息且严格旋转不变。利用这一性质,作者将水印嵌入到高阶球谐系数中,并从不变双谱标量中恢复水印,从而在任意3D旋转下实现可靠提取。论文给出了SO(3)不变性的理论证明,并通过实验验证了该方法对连续旋转具有近乎完美的鲁棒性,同时保持较高的视觉保真度。该工作适合从事多媒体安全、数字水印、三维视觉和几何深度学习的研究人员阅读。
💡 推荐理由: 全景图像在VR/AR、自动驾驶、地理信息系统中广泛应用,其版权保护面临旋转攻击的严峻挑战。本文提供了首个理论上保证且实用的旋转不变水印方案,填补了该领域空白。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Haobo Zhang, Xutao Mao, Guangyuan Dong, Ziwei Li, Xuanbo Su, Kaijie Chen, Jing Yang, Zheng Lin
该论文提出了一种名为 MemMark 的状态演化归因水印方法,旨在解决基于大语言模型(LLM)的智能体长期记忆系统中的归因问题。在传统的记忆系统中,智能体的行为通常通过日志、可见输出或受信任的元数据进行追踪。然而,当记忆快照被泄露或迁移时,这些证据可能丢失,导致无法追溯所有权或检测篡改。MemMark 通过将所有者控制的信号嵌入到潜在的记忆写入决策中来实现归因。具体而言,在每次内部 LLM 调用时,MemMark 使用密钥控制且分布保持的选择方法从可接受的候选中采样,并记录加密承诺,同时附带签名的会话锚点和揭示证据。这使得归因依赖于可重复的后端行为,而不是可变的元数据。实验在 LoCoMo 数据集上使用 A-Mem 和 Graphiti 两种记忆系统以及三种 LLM 骨干网络进行。结果表明,MemMark 几乎不损害记忆实用性:总体 F1 分数保持未加水印基线的 99.6%,BLEU-1 变化仅为 +0.2%。此外,该方法具有可用的载体容量,对于更新目标、链接目标和语义实现决策的平均熵分别为 1.16、1.14 和 1.26 比特。在仅快照的 R3 设置中,MemMark 能够从最终快照中恢复完整的 40 比特负载,而错误密钥的验证接近随机。在九种记忆生命周期攻击下,验证能够区分篡改、证据删除和部分负载恢复。这些结果表明,无需保留痕迹、受信任元数据或降低实用性,鲁棒的仅快照归因对于长期智能体记忆是可行的。该论文适合关注 AI 安全、智能体安全、水印技术和密码学的读者。
💡 推荐理由: 随着 LLM 驱动的智能体被广泛用于处理敏感信息,其长期记忆系统的安全性变得至关重要。MemMark 提供了一种即使在快照泄露或迁移后也能追溯所有权的机制,有助于保护知识产权、防止恶意行为并增强审计能力。
🎯 建议动作: 研究跟进,评估将 MemMark 集成到内部智能体记忆系统的可行性。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yifei Zhou, Xianjun Gu, Xinyu Dai, Ming Liu, Lansheng Han
本文提出了一种名为PEMark的API响应水印方案,旨在解决API数据泄露后的溯源问题。现有水印技术通常需要修改数据库或API响应数据,这会迫使业务系统代码变更,甚至因数据值改变而影响正常业务。作者创新性地利用JSON/XML键值对顺序中固有的排列冗余——这一被忽视的维度不携带语义信息,但提供了丰富的编码容量。方案包含两个核心组件:水印代理网关和基于位置编码的水印嵌入。首先,服务器响应被转发至水印代理网关,该设计无需对现有业务系统进行任何修改;然后,通过位置编码对键值对进行重新排序来嵌入水印,而不改变任何数据值。据作者所知,这是首个通过代理网关上的位置编码实现无损API响应水印的工作。实验结果显示,该框架在保持业务可用性的同时,确保返回的API数据可追溯。与当前主流方案相比,该方法对篡改和插入攻击具有鲁棒性(100%相似度),并能抵御一定程度的删除攻击。论文主要贡献包括:零业务代码修改、零数据值修改、高鲁棒性、以及首创性的位置编码水印方法。适合关注API安全、数据泄露防护、水印技术的研究人员和工程师阅读。
💡 推荐理由: 提出了一种无需修改业务代码和数据值的API水印方案,解决了现有方案影响业务运行的核心痛点,为API数据泄漏溯源提供了实用且低侵入性的解决思路。
🎯 建议动作: 研究跟进,评估将代理网关水印方案集成到内部API网关的可行性与性能影响。
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Nurana Abdullayeva
本文提出一个统一的证据框架,将密码学内容来源、鲁棒统计水印和零知识证明映射到三个法律体系(国际军事行动法、国内诉讼程序、产品监管)的证明要求中。该框架定义了一个五级威胁模型,涵盖从朴素再生、对抗性清洗、跨模型再生、主动水印移除到内部来源伪造。作者发布了包含12000个生成项(涵盖图像、音频、视频模态)的公开基准,并经过六种清洗管道处理,得到72000个评估样本。他们对四种代表性方案进行了评估,报告了在固定假阳性率下的真阳性率、鲁棒性曲线下面积、计算开销以及针对不同法律体系的条件法律充分性评分。最终将实证检测边界转化为法律充分性阈值,用于武装冲突法中的指挥决策、国内刑事和民事程序中的可采性,以及欧盟人工智能法案下的持久性审计。该成果提供了一个可复现的参考管道、公共基准和模型附件,可供律师、工程师和操作人员共同部署。
💡 推荐理由: 本文首次将AI生成内容的可验证来源与水印技术系统性地映射到法律证据要求,为安全从业者提供了跨学科的技术-法律评估基准,有助于在合规场景中设计可辩护的防御方案。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shengtang Huang, Xin Li, Songtao Mao, Zhaienhe Zhou
本文研究公钥伪随机码(PRC)对抗编辑错误的问题。伪随机码由Christ和Gunn在CRYPTO 2024提出,是一种纠错码,其码字在计算上无法与均匀随机字符串区分,但持有密钥的人可以解码。这一特性为鲁棒且不可检测的水印提供了自然原语,尤其适用于AI生成内容的标记。现有工作已针对替代错误取得强结果,但编辑错误(插入、删除)场景在高码率和小字母表情况下仍不充分。本文首先给出一种新规约,证明能够抵抗恒定比例替代错误的二进制零比特PRC可以转化为抵抗编辑错误的二进制零比特PRC。因此,在任何能够产生零比特汉明鲁棒PRC的假设下,也能得到针对编辑信道的零比特PRC,尽管仅适用于较弱的亚线性多项式编辑信道(即错误率为1/n^γ,γ>0常数)。在高码率场景,本文构造了公钥PRC,在足够大的常数字母表上码率可接近1,在二进制字母表上码率可接近1/2。进一步,若允许字母表大小为poly(λ)(λ为安全参数),则公钥PRC可达到插入-删除信道的Singleton界。这些成果首次在编辑信道上实现了高码率公钥二进制PRC,基于与产生零比特汉明鲁棒PRC相同的假设。本文适合密码学、编码理论、AI安全领域的研究者阅读。
💡 推荐理由: 该研究推动了伪随机码在编辑错误场景下的理论进展,为AI生成内容提供更鲁棒且不可检测的水印方案,对版权保护和内容溯源具有潜在安全价值。
🎯 建议动作: 学术跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chang Liu 0089, Jie Zhang 0073, Tianwei Zhang 0004, Xi Yang, Weiming Zhang 0001, Nenghai Yu
该论文提出了一种名为“音色水印”(Timbre Watermarking)的防御方法,用于检测语音克隆攻击。随着语音克隆技术的进步,攻击者可能利用公开的语音数据非法模仿特定人物的音色。为此,作者设计了一个端到端的防御框架,核心思想是将水印嵌入到语音的频域中。频域水印对常见的语音预处理(如压缩、降噪)具有内在鲁棒性。为了进一步增强鲁棒性,采用了重复嵌入策略。同时,为了泛化应对多种语音克隆方法,论文调制了不同克隆攻击的共享过程,并将其作为失真层集成到框架中。实验表明,该方法能有效防御多种语音克隆攻击(包括基于重构的移除攻击和水印覆写攻击),并在实际服务(如PaddleSpeech、Voice-Cloning-App、so-vits-svc)中验证了实用性。此外,消融研究验证了设计组件的有效性。该方法的优势在于:1)无需依赖攻击者的具体实现,即可泛化抵御不同克隆方法;2)水印嵌入不影响原始语音质量;3)对自适应攻击具有强抵抗能力。该研究适合语音安全、AI安全领域的研究者和开发者关注。
💡 推荐理由: 语音克隆滥用风险日益严重,该工作首次提出“音色水印”概念,为保护个人语音版权和防止身份冒用提供了新思路,对语音安全领域具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Maria Bulychev, Neil G. Marchant, Benjamin I. P. Rubinstein
本文提出了一种新颖且通用的数字水印移除攻击方法。核心观察是:攻击水印的过程本质上与水印嵌入过程相似——两者都在寻找对图像不可察觉的修改以触发特定检测器。基于此类比,作者假设可以用水印去攻击水印,即对已加水印的图像再次施加另一个水印(称为重水印),从而抑制原始水印信号。通过在96种不同数据集、受害者水印和攻击水印组合上的严格实验,作者验证了这一假设,表明重水印能可靠地抑制原始信号,且无需梯度、代理模型或检测密钥。此外,作者还设计了一个简单分类器用于检测图像中是否存在水印及其身份,实验显示准确率高达0.878-0.953。该分类器独立具有安全意义:它揭示了水印识别可被利用来实施更强力的移除(比黑盒攻击显著更强)。结合水印识别与重水印,攻击流水线能将比特准确率降低至少25%,最高达48%。这项工作构成了一种廉价、通用且高效的攻击管道,质疑了当前水印方案在面对如此简单攻击时的可靠性,也挑战了现有复杂攻击的价值。该研究适用于对数字水印安全感兴趣的研究者和安全从业者。
💡 推荐理由: 本文揭示了数字水印存在一个根本性漏洞:重水印这种简单操作即可有效移除原始水印,且无需特殊知识。这威胁到版权保护、深度伪造检测等依赖水印可靠性的应用,提醒社区需重新评估水印方案的安全性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Toluwani Aremu, Nils Lukas, Jie Zhang
本文提出水印技术应被视为一种监控原语,而非仅用于内容归属。传统上,水印评估侧重于对抗单个样本级别的规避或误报攻击,忽略了在多方参与的场景中,水印信号可能被聚合以推断实体级别信息。作者引入基于观察者的威胁模型,其中观察者可以通过跨输出聚合水印信号来推断实体(如特定用户或设备)的身份或行为模式。实验证明,即使是零比特水印,在多密钥设置下也能实现归属。此外,外部监控可能随着时间的推移从持久、密钥相关的统计结构中自发产生,尽管这取决于水印设计,并且可以通过保留分布或不可检测的方案来缓解。研究揭示了归属与监控之间的根本双用途矛盾,呼吁超越单一样本鲁棒性,考虑聚合和观察者能力来评估水印。
💡 推荐理由: 为AI安全监控和内容溯源提供了新视角,提醒安全团队水印不仅可用于防御篡改,也可能被攻击者利用进行大规模实体追踪,影响隐私和安全。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Enoal Gesny, Eva Giboulot
本文针对生成式图像模型(特别是扩散模型)中的种子基水印技术,提出了一套从第一性原理出发的安全水印框架。当前的水印评估主要依赖经验实验,严重受限于具体的生成与反演模型架构,导致无法对方法的性能(尤其是安全性)进行严格结论,且缺乏统一的安全性定义。作者主张水印方案的有效性应通过彻底的理论分析来确立,为此提出了将模型依赖部分与水印系统的实际决策机制解耦的思想。基于该解耦,他们构建了一个正式的评估框架,涵盖安全性、鲁棒性和保真度三个维度,并通过一个特征曲面来精确比较不同水印系统在这三者之间的权衡,且该曲面独立于任何生成模型。在此框架下,作者提出了SSB(Secure Seed-Based)水印方法,该方法泛化了以往的种子基水印方案,能够通过调整特征曲面上的参数实现任意安全性-鲁棒性-保真度组合。本文为设计具有理论保证的现代水印系统开辟了道路,无需进行昂贵的经验评估即可获得性能保障。
💡 推荐理由: 为扩散模型水印提供了首个严格的理论评估框架,解决了现有方法依赖具体实验、缺乏安全定义的问题,对生成式AI内容溯源与防护具有基础性意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zilve Fan, Zijian Zhang, Yangnan Guo, Jiaqi Gao, Zhen Li, Mengyu Wang, Chengxiang Si, Liehuang Zhu
本文研究在低延迟匿名网络(如Tor)中,攻击者如何通过主动带宽扰动实施流量相关性分析,从而破坏用户的匿名性。现有的被动流量关联方法需要攻击者控制端点或修改Tor浏览器,而本文提出的NATA(非侵入式主动流量关联分析算法)无需上述条件,仅需攻击者控制上游网络网关并观察出口中继的流量,即可通过注入可区分的吞吐量模式来标记流量。为了在复杂网络变化中识别被扰动的流,作者设计了BM-Net(带宽调制网络),一种选择性状态空间学习框架,用于检测带宽调制。BM-Net采用数据高效学习策略:首先通过掩码预训练在序列化流量轨迹上学习可复用的表征,然后利用任务特定的标注数据进行二值扰动检测和细粒度调制分类的迁移学习。基于真实Tor流量测量,BM-Net在二值检测上达到99.65%的F1分数,在细粒度调制分类上达到97.5%的宏F1分数。此外,通过基于tornettools的大规模仿真,估计了在带宽加权中继选择下的出口观察概率。结果表明,主动带宽扰动可作为一种基础设施级别的侧信道用于流量关联,对Tor匿名性构成切实威胁。
💡 推荐理由: 该研究揭示了Tor面临的新型主动流量分析攻击,无需篡改终端即可实现高精度流量关联,可能被敌手用于破坏用户匿名性,对隐私保护实践有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Shang Wang 0004, Tianqing Zhu, Dayong Ye, Hua Ma, Bo Liu 0001, Ming Ding 0001, Shengfang Zhai, Yansong Gao
该论文针对数据集版权保护中水印信号弱、注入率低及对抗攻击下的鲁棒性问题,提出了一种名为DIP的概率水印注入与双重验证框架。核心方法包括三部分:1) 分布感知样本选择:从数据集中均匀选择N个训练样本用于水印注入,从而保持原始数据分布;2) 概率水印注入:对选中的样本注入概率水印,即通过扰动样本特征或标签的方式嵌入不可见标记,使得水印在统计意义上可检测但难以被移除;3) 双重验证:结合基于标签的验证和基于标签分布的验证,提升所有权判定的可靠性。实验在多个图像分类数据集上评估了DIP在不同注入率、不同攻击(如剪枝、微调、后门攻击)下的表现,结果表明DIP在保持模型效用(分类准确率)的同时,显著提升了水印检测的鲁棒性和可信度。该工作主要贡献为提出了一种对弱嵌入信号不敏感的概率水印框架,并设计了双重验证机制来抵御对抗性移除。适合关注数据知识产权保护、鲁棒水印技术的研究者和工程师阅读。
💡 推荐理由: 为数据集版权保护提供了一种鲁棒的概率水印方案,解决低注入率和对抗攻击场景下传统水印易失效的问题,对防范模型窃取和数据侵权有实际意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Xiaokun Luan, Yihao Zhang, Pengcheng Su, Feiran Lei, Meng Sun
该论文提出了一种名为VOW的新型协议,用于解决大型语言模型(LLM)水印检测中的隐私和可验证性问题。现有LLM水印方法通常依赖集中式信任模型,用户需将敏感文本提交给服务提供商进行检测,且无法验证检测结果的完整性。虽然已有非对称方案试图解决这些问题,但它们要么不适用于短文本,要么缺乏水印插入与检测之间的形式化保证。VOW协议将水印检测表述为一个安全的两方计算问题,通过可验证的不经意伪随机函数(VOPRF)实现水印核心逻辑的实例化。该协议允许用户和服务提供商在不泄露用户文本的情况下进行检测,同时服务提供商的结果是可验证的。综合评估表明,VOW对于短文本具有实用性,并重新评估了水印针对现代改写攻击的鲁棒性。该研究为LLM水印的实际部署提供了兼顾隐私与可验证性的高效方案。
💡 推荐理由: LLM水印是追踪机器生成文本来源的关键技术,但现有方案牺牲用户隐私且结果不可验证。VOW首次同时实现隐私保护与密码学可验证性,且对短文本高效,为内容溯源和可信检测提供了新范式。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
提出一种名为ArmSSL的框架,用于对自监督学习预训练编码器进行黑盒可验证且对抗鲁棒的水印保护,在不影响主任务效用的前提下实现知识产权防护。
💡 推荐理由: 自监督学习编码器是重要的知识产权资产,现有水印方案难以同时满足黑盒验证和对抗鲁棒性。ArmSSL首次解决了这一矛盾,为防御者提供了一种有效的侵权检测与防御思路。
🎯 建议动作: 研究跟进
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)