#diffusion-models

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Kai Wang, Jiale Zhang, Chengcheng Zhu, Chuang Ma, Songze Li

本文针对文本到图像扩散模型在多步开源复用和下游微调场景下面临的多概念后门注入问题展开研究。在开源生态中,一个预训练模型可能被多个独立方依次微调并重新分发,导致多个概念特定的触发-目标关联累积在同一模型中。这些关联共存时,共享表示空间中的语义冲突可能加剧,产生跨概念纠缠并降低生成质量,甚至使先前注入的后门行为失稳。为此,作者系统性地研究了这种干扰环境下的后门攻击,并提出Hydra统一框架,用于在累积性和去中心化复用场景下实现鲁棒可控的多概念后门注入。核心思路是:在大规模多概念设置下,稳定后门注入需要显式约束触发语义,同时在优化过程中协调跨任务交互。具体地,Hydra在文本编码器空间执行进化触发搜索,以找到与目标概念语义对齐且在其他注入概念下保持稳定的触发器;同时结合多任务微调和触发-干净正则化,提高密集多概念注入下的训练稳定性。在多种扩散主干网络和严格多概念设置下的广泛实验表明,Hydra在保持干净生成保真度和图像质量的同时,维持了有效的后门激活。例如,在8个攻击者和500个概念对的设置下,Hydra保持了约95%的攻击成功率(ASR)和强大的干净生成能力。本文适合对AI安全、后门攻击与防御、扩散模型安全性感兴趣的研究人员和工程师阅读。

💡 推荐理由: 该研究揭示了开源扩散模型分发链中多概念后门累积可能导致攻击失效的问题,并提出一种稳定且可控的多后门注入框架,有助于安全社区理解后门攻击的演进并开发相应防御措施。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ziyang You, Liling Zheng, Xiaoke Yang, Xuxing Lu

本文提出了一种针对扩散模型的新型供应链后门攻击方法——DiffusionHijack。该攻击不修改模型权重,而是通过注入恶意的伪随机数生成器(PRNG)来劫持生成过程中的噪声采样,从而实现对生成图像内容的精确控制。攻击者通过第三方或已受感染的Python包替换标准PRNG(如PyTorch的default_generator),使得每次生成时,尽管用户提示不同,模型都会输出攻击者预设的图像(SSIM=1.00)。该攻击在Stable Diffusion v1.4、v1.5和SDXL上验证成功,且不受随机采样(eta>0)和CLIP安全检查器的影响(绕过成功率98-100%)。由于恶意PRNG完全脱离神经网络计算图,现有模型审计和内容审核机制无法检测到该后门。作为防御,作者提出将PRNG替换为量子随机数生成器(QRNG),利用信息论上的不可预测性彻底消除确定性后门。实验表明,QRNG防御可将输出图像相似度降至基线水平(SSIM<0.20 for SD 1.x, <0.45 for SDXL)。该研究揭示了生成式AI供应链中一个被忽视的安全漏洞,并提出基于硬件的根本性缓解措施。

💡 推荐理由: 该攻击利用生成式AI供应链中对随机数生成器的隐式信任,无需修改模型即可完全控制输出,现有防御手段无法检测,对依赖扩散模型的应用(如内容生成、深度伪造检测)构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chenyu Zhang, Lanjun Wang, Yueyang Cheng, Ruidong Chen, Wenhui Li, An-an Liu

本文研究文本到图像(T2I)生成模型中的风险内容检测与抑制问题,重点关注最新的基于扩散变换器(Diffusion Transformer, DiT)的架构。与早期基于U-Net的模型不同,DiT通过联合注意力(joint attention)将语义注入与视觉合成纠缠在一起,使得隔离和擦除风险内容更加困难。作者发现DiT中的注意力头表现出概念特异性敏感性,即不同注意力头对不同语义概念敏感。基于这一发现,提出了AHV-D&S方法,一种无需训练、推理时生效的安全防护措施。AHV-D&S首先量化每个文本标记在所有注意力头上的敏感性,形成注意力头向量(AHV),作为检测风险生成倾向的判别特征。在推理阶段,采用基于动量策略动态跟踪去噪步骤中的标记级AHV,并设计敏感性指导的自适应抑制策略,根据头特异性风险分数抑制已识别风险标记的注意力权重。大量实验表明,AHV-D&S能有效抑制性内容、受版权保护的风格及其他有害内容的生成,同时保持视觉质量,并对对抗性提示表现出强鲁棒性,且在不同DiT-based T2I模型间具有可迁移性。该方法无需重新训练,可直接应用于现有模型推理,为图像生成安全提供了实用的解决方案。

💡 推荐理由: 当前最先进的DiT架构T2I模型缺乏针对风险内容的有效防护,本文提出的无训练推理时方法填补了这一空白,为安全从业者提供了一种即插即用的风险检测与抑制手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shiqian Zhao, Chong Wang 0013, Yiming Li 0004, Yihao Huang 0001, Wenjie Qu 0001, Siew-Kei Lam, Yi Xie 0011, Kangjie Chen, Jie Zhang, Tianwei Zhang 0004

本文针对文本到图像(T2I)扩散模型(如DALL·E、Midjourney)中的提示词(prompt)窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述,具有知识产权价值,但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练,泛化性差且效果有限。为此,作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三:1)引入动态修饰词,利用NLP分析实时生成与目标图像更匹配的修饰词,作为静态修饰词的补充;2)设计上下文匹配算法对修饰词排序,缩小后续搜索空间;3)通过本地代理模型进行贪心搜索,根据反馈逐步优化提示词以提升重建保真度。实验证明,Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词,攻击成功率提升25.0%,且对现有防御措施具有抗性,揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读,以理解提示词窃取威胁并设计相应防护。

💡 推荐理由: 提示词是T2I模型商业化的核心资产,本文揭示的新型攻击可大规模窃取创意作品背后的提示词,威胁创作生态与知识产权保护。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)