本文研究文本到图像(T2I)生成模型中的风险内容检测与抑制问题,重点关注最新的基于扩散变换器(Diffusion Transformer, DiT)的架构。与早期基于U-Net的模型不同,DiT通过联合注意力(joint attention)将语义注入与视觉合成纠缠在一起,使得隔离和擦除风险内容更加困难。作者发现DiT中的注意力头表现出概念特异性敏感性,即不同注意力头对不同语义概念敏感。基于这一发现,提出了AHV-D&S方法,一种无需训练、推理时生效的安全防护措施。AHV-D&S首先量化每个文本标记在所有注意力头上的敏感性,形成注意力头向量(AHV),作为检测风险生成倾向的判别特征。在推理阶段,采用基于动量策略动态跟踪去噪步骤中的标记级AHV,并设计敏感性指导的自适应抑制策略,根据头特异性风险分数抑制已识别风险标记的注意力权重。大量实验表明,AHV-D&S能有效抑制性内容、受版权保护的风格及其他有害内容的生成,同时保持视觉质量,并对对抗性提示表现出强鲁棒性,且在不同DiT-based T2I模型间具有可迁移性。该方法无需重新训练,可直接应用于现有模型推理,为图像生成安全提供了实用的解决方案。
💡 推荐理由: 当前最先进的DiT架构T2I模型缺乏针对风险内容的有效防护,本文提出的无训练推理时方法填补了这一空白,为安全从业者提供了一种即插即用的风险检测与抑制手段。
🎯 建议动作: 研究跟进