#diffusion-models 主题 - Cyber Security Daily Radar

👥 作者: Abrar Alotaibi, Moataz Ahmed

本文是一篇关于对抗性攻击与防御在跨模态AI系统中的综述，聚焦于扩散模型在文本（LLM）、图像分类器、视觉-语言模型（VLM）以及输入净化防御中作为攻击或防御机制的统一框架。作者将过去沿着四个相对独立轨迹发展的研究整合起来：基于扩散的文本/LLM攻击、基于扩散的图像分类器攻击、针对VLM的越狱流水线、以及基于扩散的输入净化防御。综述分析了50篇已发表论文，覆盖四个主要领域（文本/LLM、图像分类器、VLM、防御），还包括4个以扩散LLM为受害者的条目和10个非扩散基线方法。作者提出了一个六类扩散角色分类法（如生成对抗样本、净化噪声等），并结合威胁模型维度（攻击者知识、查询预算、目标可访问性）进行标注，同时采用五维评估框架（攻击成功率、可迁移性、查询预算、困惑度、防御规避性）跨模态统一度量。本文采用攻击者-防御者双重视角，除攻击分类外，还涵盖四种基于扩散的防御方法。批判性分析指出了当前LLM侧文献中五个反复出现的弱点，并提出了开放问题与具体实验设计的研究议程。论文附带目录和电子表格。

💡 推荐理由: 该综述首次跨模态统一了扩散模型在对抗性攻击与防御中的角色，为安全从业者提供了系统性的技术分类和评估框架，有助于理解跨模态攻击的共性和迁移风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Rishabh Sharma, Stefano Martiniani

这篇论文提出了一种名为“循环去噪”（cyclic denoising）的新型提取攻击方法，用于从图像扩散模型中提取训练数据中的记忆化图像。该方法受无序固体中随机组织的启发，通过在受控噪声幅度下重复进行前向和反向扩散过程，使得样本被驱动向具有广泛稳定性谱的吸引子。其中最深层的吸引子具有超稳定性：即使在近乎完全破坏后仍能再生，并能承受数千次噪声-去噪循环。许多这样的吸引子对应于记忆化的训练图像，包括库存照片、品牌水印和网络爬取的人工制品。该攻击仅需采样器级别的控制，无需梯度、权重检查、提示、标题或对训练数据的先验知识。与需要大规模提示生成和事后相似性过滤的生成-过滤攻击不同，该协议完全无条件。作者在Stable Diffusion v1.4和像素空间DDPM上展示了该现象，结果表明循环去噪既是生成景观的物理启发探测工具，也是记忆化审计的实用方法，对隐私保护、版权合规和模型指纹识别具有重要意义。论文还观察到了屈服-like转变、层次部分吸收、提示稳定吸引子和跨初始条件的吸引子集合普遍性等特性。

💡 推荐理由: 该攻击无需复杂资源即可揭露扩散模型中的记忆化训练样本，对生成式AI的隐私合规、版权保护和模型审计提出新挑战，值得安全从业者关注。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vu Tuan Truong, Long Bao Le

本文提出了一种针对扩散模型（Diffusion Models, DMs）的高效后门攻击框架 TooBad。现有的后门攻击方法在攻击性能、隐蔽性、时间复杂度和所需毒化率之间存在严重权衡：高攻击性能通常需要高毒化率和长时间训练，导致隐蔽性下降，易被防御机制检测。TooBad 的核心创新在于设计了一种专门针对扩散模型的触发优化技术，通过优化触发模式来最大化后门注入效率。实验在 CIFAR-10 等代表性基准上进行：仅需 0.5% 的毒化率即可达到超过 85% 的攻击成功率（ASR），而先前工作在相同数据集上通常需要 10% 的毒化率；当毒化率提升至 5% 时，TooBad 仅需 3-5 个后门注入周期即可实现接近 100% 的 ASR，相比现有方法（需要 30-50 周期及两倍毒化率）效率提升显著。此外，TooBad 能够轻松规避当前最先进的后门防御机制，同时保持模型在正常任务上的高实用性。该工作揭示了扩散模型面临的新型隐蔽威胁，强调需要开发更鲁棒的防御策略。

💡 推荐理由: 该攻击以极低毒化率和极短训练时间实现高成功率，且能绕过现有防御，对实际部署的扩散模型构成严重安全隐患，需引起安全从业者高度关注。

🎯 建议动作: 研究跟进，评估自身扩散模型对低毒化率后门攻击的鲁棒性，并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Lijunxian Zhang, Weihai Li, Bin Liu, Zikai Xu

该论文针对扩散模型在公开部署场景（如开源库或发布检查点）下面临的严重安全风险——即任何获取中间潜在表示的用户都能逆推恢复原始输入图像——提出了一种密钥控制逆推框架。不同于以往假设黑盒模型（参数保密）的访问控制研究，本文首次在白盒设置下（所有参数公开）解决逆推保护问题。核心思想是将扩散模型固有的误差传播特性（指数级放大微小扰动）转化为安全资产：通过在逆推公式中注入密钥依赖噪声，使得只有持有正确密钥的用户能重构原图，错误密钥则输出不可识别结果。理论方面，利用现有扩散模型误差传播理论，证明密文分布满足IND-CPA安全，且攻击者优势在可调安全参数上呈指数级小，对任意概率多项式时间攻击者可忽略。实验在多模型和数据集上验证了安全保证，并展示了跨模型鲁棒性——注入的密钥噪声不会放大模型差异导致的性能下降。该工作为白盒扩散模型提供了一种可证明安全的逆推防护机制。

💡 推荐理由: 该研究首次解决了公开参数扩散模型下图像逆推的隐私保护难题，为安全从业者提供了理论可证明的白盒防护方案，能够防止恶意用户通过中间表示复原训练或生成数据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shiyi Ling, Yuhang Gan, Chen Qian

本文研究了网络审查与规避之间不断升级的对抗。当前审查方已从静态规则过滤演进到基于深度学习的流量分析，而现有的自动化规避工具虽然利用随机搜索和可编程启发式方法，但在多种审查机制下的鲁棒性不足，且配置复杂、需要手动调优或特定领域语言，可用性差。作者提出了一种范式转变，将审查规避重新定义为语义图像到图像的编辑任务，用户只需一个提示即可执行。具体地，提出了FlowPaint框架，利用大型扩散模型的“世界知识”自动将受审查流量重塑为良性模式。FlowPaint采用指令微调的扩散架构，对网络流进行语义编辑。评估使用工业级的规则型中间盒和学习型分类器，结果表明FlowPaint优于现有基线，用户仅通过改变自然语言指令就能应对不同审查范式。该方法显著简化了规避工具的配置，提高了可迁移性和鲁棒性，为网络审查规避领域引入了生成式AI的新视角。

💡 推荐理由: 提出了一种全新的审查规避范式，利用扩散模型的语义理解能力，可能重塑网络审查对抗格局，值得安全从业者关注其潜在攻防影响。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lingfeng Yao, Xincong Zhong, Chenpei Huang, Xuandong Zhao, Hanqing Guo, Aohan Li, Jiang Liu, Tomoaki Ohtsuki, Miao Pan

随着AI生成音频的普及，水印技术被广泛用于检测滥用和保护知识产权。然而，攻击者可能试图移除这些水印，因此评估水印方案对移除攻击的鲁棒性至关重要。现有攻击方法往往不切实际：要么明显降低感知质量，要么需要访问水印方案的具体细节。本文提出DiffErase，一种黑盒水印移除攻击方法，它假设攻击者不了解目标水印方案，同时保持感知质量。DiffErase将带水印的音频扰动到中间扩散噪声水平，然后使用预训练的降噪模型重新生成，从而有效抑制水印信号。理论分析和大量实验表明，不可听的音频水印非常脆弱：在多个音频域中，DiffErase在保持感知质量的同时持续移除水印。这些发现突显了未来音频水印设计需要考虑基于扩散模型的威胁。代码和演示可在 https://differase.github.io/DiffErase/ 获取。

💡 推荐理由: 揭示了当前音频水印在扩散模型攻击下的脆弱性，对安全从业者评估和保护音频内容水印系统具有警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Leyi Qi, Yiming Li, Siyuan Liang, Zhengzhong Tu, Dacheng Tao

随着文本到图像（T2I）扩散模型在创意应用中的广泛使用，模型被未经授权使用的问题日益严重，模型所有权验证（MOV）成为保护知识产权的重要手段。现有基于后门的扩散模型水印方法通常隐含假设验证过程是“忠实”的，即验证者可以查询可疑模型并获得可信的水印响应。然而，在实际对抗环境中，攻击者可能有意或无意地破坏水印信号，导致验证可靠性显著下降。针对这一问题，本文提出了 Cert-LAS，这是首个基于层自适应平滑的认证 T2I 模型所有权验证方法。具体而言，Cert-LAS 利用扩散分类器和拉普拉斯频率敏感（LFS）引导的层自适应噪声将指定水印嵌入模型，并通过假设检验验证可疑模型是否表现出比未加水印参考模型显著更强的水印响应。理论上，作者证明了在特定条件下，即使存在恶意移除攻击，Cert-LAS 仍能实现可靠验证。大量实验验证了 Cert-LAS 的有效性及其对自适应攻击的抵抗性。该工作为 T2I 扩散模型的版权保护提供了具有认证保障的解决方案。

💡 推荐理由: 本文首次为 T2I 扩散模型提供了具有认证保障的所有权验证方法，能有效抵抗恶意水印移除攻击，对保护模型知识产权具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kai Wang, Jiale Zhang, Chengcheng Zhu, Chuang Ma, Songze Li

本文研究了在文本到图像扩散模型的多概念后门注入场景中，由于多个后门触发器-目标关联共存导致的语义冲突和不稳定问题。随着开源模型重用和下游微调的普及，同一个预训练模型可能被多个独立方顺序适配和重新分发，导致多个概念特定的后门行为累积。这种累积会放大共享表示空间中的冲突，导致跨概念纠缠和生成质量下降，甚至削弱已有后门的可靠性。为应对这一干扰环境，作者提出了Hydra框架，一种稳健可控的多概念后门注入方法。核心思路是：在优化过程中显式约束触发器语义并协调跨任务交互。具体地，Hydra在文本编码器空间中进行进化触发器搜索，找到与目标概念语义对齐且对其他注入概念保持稳定的触发器；同时结合多任务微调和触发-干净正则化提高密集多概念注入下的训练稳定性。在多种扩散主干网络上的大量实验表明，Hydra在8个攻击者和500个概念对设置下维持了约95%的攻击成功率（ASR）和良好的干净生成保真度。该研究揭示了多概念后门注入的独特挑战，并为理解模型重用生态中的安全风险提供了新视角。

💡 推荐理由: 揭示了多概念后门注入在模型重用场景中的不稳定问题，提醒社区关注累积后门风险的复杂性和防御难度。

🎯 建议动作: 研究跟进：将多概念后门稳定性纳入威胁模型，评估自身模型分发流程中的累积风险。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziyang You, Liling Zheng, Xiaoke Yang, Xuxing Lu

本文提出了一种针对扩散模型的新型供应链后门攻击方法——DiffusionHijack。该攻击不修改模型权重，而是通过注入恶意的伪随机数生成器（PRNG）来劫持生成过程中的噪声采样，从而实现对生成图像内容的精确控制。攻击者通过第三方或已受感染的Python包替换标准PRNG（如PyTorch的default_generator），使得每次生成时，尽管用户提示不同，模型都会输出攻击者预设的图像（SSIM=1.00）。该攻击在Stable Diffusion v1.4、v1.5和SDXL上验证成功，且不受随机采样（eta>0）和CLIP安全检查器的影响（绕过成功率98-100%）。由于恶意PRNG完全脱离神经网络计算图，现有模型审计和内容审核机制无法检测到该后门。作为防御，作者提出将PRNG替换为量子随机数生成器（QRNG），利用信息论上的不可预测性彻底消除确定性后门。实验表明，QRNG防御可将输出图像相似度降至基线水平（SSIM<0.20 for SD 1.x, <0.45 for SDXL）。该研究揭示了生成式AI供应链中一个被忽视的安全漏洞，并提出基于硬件的根本性缓解措施。

💡 推荐理由: 该攻击利用生成式AI供应链中对随机数生成器的隐式信任，无需修改模型即可完全控制输出，现有防御手段无法检测，对依赖扩散模型的应用（如内容生成、深度伪造检测）构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chenyu Zhang, Lanjun Wang, Yueyang Cheng, Ruidong Chen, Wenhui Li, An-an Liu

本文研究文本到图像（T2I）生成模型中的风险内容检测与抑制问题，重点关注最新的基于扩散变换器（Diffusion Transformer, DiT）的架构。与早期基于U-Net的模型不同，DiT通过联合注意力（joint attention）将语义注入与视觉合成纠缠在一起，使得隔离和擦除风险内容更加困难。作者发现DiT中的注意力头表现出概念特异性敏感性，即不同注意力头对不同语义概念敏感。基于这一发现，提出了AHV-D&S方法，一种无需训练、推理时生效的安全防护措施。AHV-D&S首先量化每个文本标记在所有注意力头上的敏感性，形成注意力头向量（AHV），作为检测风险生成倾向的判别特征。在推理阶段，采用基于动量策略动态跟踪去噪步骤中的标记级AHV，并设计敏感性指导的自适应抑制策略，根据头特异性风险分数抑制已识别风险标记的注意力权重。大量实验表明，AHV-D&S能有效抑制性内容、受版权保护的风格及其他有害内容的生成，同时保持视觉质量，并对对抗性提示表现出强鲁棒性，且在不同DiT-based T2I模型间具有可迁移性。该方法无需重新训练，可直接应用于现有模型推理，为图像生成安全提供了实用的解决方案。

💡 推荐理由: 当前最先进的DiT架构T2I模型缺乏针对风险内容的有效防护，本文提出的无训练推理时方法填补了这一空白，为安全从业者提供了一种即插即用的风险检测与抑制手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shiqian Zhao, Chong Wang 0013, Yiming Li 0004, Yihao Huang 0001, Wenjie Qu 0001, Siew-Kei Lam, Yi Xie 0011, Kangjie Chen, Jie Zhang, Tianwei Zhang 0004

本文针对文本到图像（T2I）扩散模型（如DALL·E、Midjourney）中的提示词（prompt）窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述，具有知识产权价值，但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练，泛化性差且效果有限。为此，作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三：1）引入动态修饰词，利用NLP分析实时生成与目标图像更匹配的修饰词，作为静态修饰词的补充；2）设计上下文匹配算法对修饰词排序，缩小后续搜索空间；3）通过本地代理模型进行贪心搜索，根据反馈逐步优化提示词以提升重建保真度。实验证明，Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词，攻击成功率提升25.0%，且对现有防御措施具有抗性，揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读，以理解提示词窃取威胁并设计相应防护。

💡 推荐理由: 提示词是T2I模型商业化的核心资产，本文揭示的新型攻击可大规模窃取创意作品背后的提示词，威胁创作生态与知识产权保护。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#diffusion-models

Adversarial Diffusion Across Modalities: A Fusion Survey of Attacks, Defenses, and Evaluation for Text, Vision, and Vision-Language Models

Cyclic Denoising Reveals Ultrastable Memories in Diffusion Models

TooBad: Backdoor Diffusion Models with Ultra-Low Poison Rate and Imperceptible Trigger

Public Diffusion Models, Private Images: Key-Controlled Inversion for Conditional Reconstruction

One-Prompt Censorship Evasion via Generative Diffusion Models

Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors

Cert-LAS: Toward Certified Model Ownership Verification for Text-to-Image Diffusion Models via Layer-Adaptive Smoothing

Awakening the Hydra: Stabilizing Multi-Concept Backdoor Injection in Text-to-Image Diffusion Models

DiffusionHijack: Supply-Chain PRNG Backdoor Attack on Diffusion Models and Quantum Random Number Defense

What Concepts Lie Within? Detecting and Suppressing Risky Content in Diffusion Transformers

Towards Effective Prompt Stealing Attack against Text-to-Image Diffusion Models.