推荐 3.5
Conf: 50%
本文针对文本到图像扩散模型在多步开源复用和下游微调场景下面临的多概念后门注入问题展开研究。在开源生态中,一个预训练模型可能被多个独立方依次微调并重新分发,导致多个概念特定的触发-目标关联累积在同一模型中。这些关联共存时,共享表示空间中的语义冲突可能加剧,产生跨概念纠缠并降低生成质量,甚至使先前注入的后门行为失稳。为此,作者系统性地研究了这种干扰环境下的后门攻击,并提出Hydra统一框架,用于在累积性和去中心化复用场景下实现鲁棒可控的多概念后门注入。核心思路是:在大规模多概念设置下,稳定后门注入需要显式约束触发语义,同时在优化过程中协调跨任务交互。具体地,Hydra在文本编码器空间执行进化触发搜索,以找到与目标概念语义对齐且在其他注入概念下保持稳定的触发器;同时结合多任务微调和触发-干净正则化,提高密集多概念注入下的训练稳定性。在多种扩散主干网络和严格多概念设置下的广泛实验表明,Hydra在保持干净生成保真度和图像质量的同时,维持了有效的后门激活。例如,在8个攻击者和500个概念对的设置下,Hydra保持了约95%的攻击成功率(ASR)和强大的干净生成能力。本文适合对AI安全、后门攻击与防御、扩散模型安全性感兴趣的研究人员和工程师阅读。
💡 推荐理由: 该研究揭示了开源扩散模型分发链中多概念后门累积可能导致攻击失效的问题,并提出一种稳定且可控的多后门注入框架,有助于安全社区理解后门攻击的演进并开发相应防御措施。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)