#multi-concept 主题 - Cyber Security Daily Radar

👥 作者: Kai Wang, Jiale Zhang, Chengcheng Zhu, Chuang Ma, Songze Li

本文研究了在文本到图像扩散模型的多概念后门注入场景中，由于多个后门触发器-目标关联共存导致的语义冲突和不稳定问题。随着开源模型重用和下游微调的普及，同一个预训练模型可能被多个独立方顺序适配和重新分发，导致多个概念特定的后门行为累积。这种累积会放大共享表示空间中的冲突，导致跨概念纠缠和生成质量下降，甚至削弱已有后门的可靠性。为应对这一干扰环境，作者提出了Hydra框架，一种稳健可控的多概念后门注入方法。核心思路是：在优化过程中显式约束触发器语义并协调跨任务交互。具体地，Hydra在文本编码器空间中进行进化触发器搜索，找到与目标概念语义对齐且对其他注入概念保持稳定的触发器；同时结合多任务微调和触发-干净正则化提高密集多概念注入下的训练稳定性。在多种扩散主干网络上的大量实验表明，Hydra在8个攻击者和500个概念对设置下维持了约95%的攻击成功率（ASR）和良好的干净生成保真度。该研究揭示了多概念后门注入的独特挑战，并为理解模型重用生态中的安全风险提供了新视角。

💡 推荐理由: 揭示了多概念后门注入在模型重用场景中的不稳定问题，提醒社区关注累积后门风险的复杂性和防御难度。

🎯 建议动作: 研究跟进：将多概念后门稳定性纳入威胁模型，评估自身模型分发流程中的累积风险。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#multi-concept

Awakening the Hydra: Stabilizing Multi-Concept Backdoor Injection in Text-to-Image Diffusion Models