#generative-models 主题 - Cyber Security Daily Radar

👥 作者: William Corrias, Fabio De Gaspari, Dorjan Hitaj, Luigi V. Mancini

本文针对生成式模型在密码猜测领域的应用所面临的评估不一致和方法论缺陷问题，提出了一个统一的、可定制的、即插即用的基准测试框架MAYA。该框架旨在系统地表征和评估针对拖网攻击（trawling attacks）的生成式密码猜测模型。研究团队重新实现并适配了六种最先进的方法，确保标准化评估；基于八个真实世界密码数据集，开展了超过15,000计算小时的全面测试，覆盖高级测试场景。实验结果表明，生成式模型能有效捕捉人类密码分布的不同方面，展现出强大的泛化能力，但在长密码和复杂密码上效果差异显著；序列模型一致优于其他生成架构和传统密码猜测工具，具有生成准确且复杂猜测的独特能力；不同模型学习的多样化密码分布使得多模型攻击表现优于最佳单一模型。MAYA框架已开源，旨在为社区提供一致、可靠的基准测试工具。

💡 推荐理由: 密码猜测是攻击者常用技术，不统一的评估导致防御者难以判断真实威胁。MAYA框架提供了标准化基准，有助于安全社区客观比较不同模型，提升对生成式攻击的理解与防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xiaoyu Li, Zheng Gao, Xiaoyan Feng, Jiaojiao Jiang, Yulei Sui, Jiankun Hu

本文从信息论角度系统分析了生成模型水印的取证能力。传统水印仅用于检测文本是否由机器生成，但本文提出水印还可用于用户归属（识别生成文本的用户）、隐藏载荷提取以及定位编辑后残留部分，这构成了一个“取证阶梯”（forensic ladder）。作者引入信息轮廓ν(t)=I(S;X_t|X_{<t})，该轮廓刻画了每个token关于秘密S（用户身份或载荷）所揭示的信息量。该轮廓的总和决定了归属和提取的样本复杂度，而其分布决定了定位能力；检测则不是由信息量而是由标记分布与无标记分布的距离决定。主要定理：对于统计上无失真的方案，在熵率为h的平稳遍历信源上，归属一个文本到N个用户之一需要Θ(log N/h)个token，这是首个紧致的多用户归属熵率定律（通过精确对齐实现）。自然碰撞计数分析会导致无界过估计；只有通过每个候选者自己的实际惊喜度（realized surprisal）设置阈值的解码器才能达到该速率，同时几乎不错误指责无辜用户。匹配的逆定理使得该定律双向成立。提取ℓ比特载荷需要Θ(ℓ/h)个token。存在两个真实间隙：一个Θ(log N)大小的窗口内，文本可证明是机器生成但无法归属；以及一个足迹-分辨率不确定性原理。在GPT-2、Pythia-410M和Qwen2.5上的实验恢复了预测的常数。

💡 推荐理由: 该工作为生成模型水印的取证能力提供了首个理论框架，界定了检测、归属、提取和定位所需的信息论下界，对安全从业者评估水印方案的实际安全性、设计可审计的生成模型系统具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xin Che, Lingyang Chu, Qiqi Zhang, Xinyu Ma, Xuan Luo, Jian Pei

该论文针对生成式表格数据的水印技术面临的重训练攻击问题，提出了一种具有放射性的水印方法RaMark。现有水印方法在攻击者利用带水印数据集重新训练生成模型后，生成的高效用数据会丢失水印，导致所有权验证失效。RaMark通过将正弦依赖性作为数据分布的内在组成部分嵌入，使水印与底层数据分布耦合，从而确保任何保留数据效用的生成模型也必须保留水印。理论分析表明，移除水印会以高概率降低数据效用并改变数据分布。在两个真实表格数据集上，基于大规模所有权验证场景（包含10^5个独立数据所有者）的实验证明，RaMark在抵抗重训练攻击和数据修改攻击方面显著优于七种最新方法。该研究为隐私敏感数据共享中的所有权保护提供了新途径，适合从事数据安全、生成模型水印研究的学者和工程师阅读。

💡 推荐理由: 首次提出放射性水印概念，从根本上解决了生成式表格数据水印在重训练攻击下失效的问题，强化了数据所有权验证的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dayong Ye, Tainqing Zhu, Kun Gao, Junhao Liu, Yichuan Chen, Shuai Zhou, Hengzhu Liu, Bo Liu, Wanlei Zhou

本文提出首个统一框架，用于对文本生成、文本到图像、图像到文本三种模态的生成模型进行成员推理攻击（MIA）。现有方法针对单一模态设计，无法跨模态适用。作者发现一个模态无关的观察：生成模型的输出分布可近似其训练数据分布。利用这一特性，他们在共享嵌入空间中建模模型生成输出与辅助非成员样本的分布，通过似然比检验进行成员推理。在严格黑盒设置下（部分知识/零知识威胁模型），针对微调数据和预训练数据进行了广泛实验。结果表明，该方法在跨模态场景下优于针对单一模型类优化的现有最先进方法。这是首个跨模态统一MIA研究，为评估生成模型隐私风险提供了通用工具。

💡 推荐理由: 该研究揭示了生成模型在跨模态场景下共享的隐私泄漏模式，为防御者提供了一种统一评估成员隐私风险的方法，有助于设计更全面的隐私保护机制。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kazuki Iwahana, Masaru Matsubayashi, Takuma Koyama, Toshiki Shibahara, Kenichiro Omintato, Akira Ito

该论文针对大型语言模型（LLM）面临的后门攻击威胁，提出了一种基于共享内部机制的未知后门移除方法。后门攻击会使模型在干净输入下表现正常，但遇到特定触发器时输出攻击者指定的有害内容。由于防御者通常不了解后门类型或内部机制，移除未知后门极具挑战性。论文首先通过实验证明，不同后门在同一攻击目标下会引发相似的激活模式变化。基于这一发现，作者设计了一种简单而有效的防御策略：主动向模型中植入一个已知触发器的虚拟后门（dummy backdoor），然后通过与干净响应配对的虚拟触发器输入进行微调来移除该虚拟后门。由于虚拟后门与未知后门共享内部机制，移除虚拟后门的同时也会削弱未知后门的效果。论文在三个模型家族上针对三种后门攻击类型进行了评估，结果表明该方法显著降低了未知后门的攻击成功率，同时保持了模型实用性，在防御有效性和效用保留方面均优于现有代表性防御方法。该方法为LLM后门防御提供了新思路，利用防御者可控的后门作为代理来缓解未知后门威胁。

💡 推荐理由: LLM后门攻击是当前AI安全的核心威胁之一，现有防御方法难以应对未知后门。该论文首创性地利用虚拟后门作为代理，通过共享内部机制实现有效防御，为业界提供了一种无需先验知识的高效后门移除方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#generative-models

MAYA: Addressing Inconsistencies in Generative Password Guessing Through a Unified Benchmark.

Watermark Forensics for Generative Models: An Information-Theoretic Perspective

RaMark: Radioactive Watermarking for Generated Tabular Data

One Framework for All: Cross-Modal Membership Inference for Generative Models

Dummy Backdoor as a Defense: Removing Unknown Backdoors via Shared Internal Mechanisms for Generative LLMs