#unified-autoregressive-model 主题 - Cyber Security Daily Radar

👥 作者: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach

本文首次研究了统一自回归模型（UAM）中的后门攻击漏洞。UAM是一种Transformer模型，能够在单个自回归过程中同时生成文本和图像token。其共享参数和多模态词汇简化了训练流程并支持灵活的多模态生成，但也引入了新的安全风险。作者提出了Token by Token后门攻击（ToBAC），这是首个针对UAM的后门攻击方法，涵盖基于数据和基于模型的投毒策略。攻击者可以将看似无害的字符或常见单词作为触发器，在图像生成过程中引发恶意行为，同时操纵视觉输出和伴随文本，从而提高虚假内容的可信度。在模型可访问的场景下，攻击者可以对统一Liquid模型进行攻击，使得一个微妙单词（如“cool”）在55%的生成中诱发与模态一致的品牌推广或意识形态影响。在无模型访问时，通过数据投毒即可实现攻击，对JanusPro的平均成功率达63.1%。实验表明，UAM的跨模态参数共享使得后门触发器能够跨模态传播恶意效果，这是一种新型安全威胁。本文的贡献在于揭示UAM特有的安全隐患，并展示了多模态后门攻击的可行性和有效性。

💡 推荐理由: 统一自回归模型是未来多模态AI的重要方向，本文揭示了其特有的后门攻击风险，攻击者可同时篡改文本和图像输出，对内容安全构成严重威胁。

🎯 建议动作: 跟进该研究，评估自身使用的UAM模型是否存在类似后门风险；关注后续防御技术发展。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#unified-autoregressive-model

Token by Token, Compromised: Backdoor Vulnerabilities in Unified Autoregressive Models