#unified-autoregressive-model

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach

本文首次研究了统一自回归模型(UAM)中的后门攻击漏洞。UAM是一种Transformer模型,能够在单个自回归过程中同时生成文本和图像token。其共享参数和多模态词汇简化了训练流程并支持灵活的多模态生成,但也引入了新的安全风险。作者提出了Token by Token后门攻击(ToBAC),这是首个针对UAM的后门攻击方法,涵盖基于数据和基于模型的投毒策略。攻击者可以将看似无害的字符或常见单词作为触发器,在图像生成过程中引发恶意行为,同时操纵视觉输出和伴随文本,从而提高虚假内容的可信度。在模型可访问的场景下,攻击者可以对统一Liquid模型进行攻击,使得一个微妙单词(如“cool”)在55%的生成中诱发与模态一致的品牌推广或意识形态影响。在无模型访问时,通过数据投毒即可实现攻击,对JanusPro的平均成功率达63.1%。实验表明,UAM的跨模态参数共享使得后门触发器能够跨模态传播恶意效果,这是一种新型安全威胁。本文的贡献在于揭示UAM特有的安全隐患,并展示了多模态后门攻击的可行性和有效性。

💡 推荐理由: 统一自回归模型是未来多模态AI的重要方向,本文揭示了其特有的后门攻击风险,攻击者可同时篡改文本和图像输出,对内容安全构成严重威胁。

🎯 建议动作: 跟进该研究,评估自身使用的UAM模型是否存在类似后门风险;关注后续防御技术发展。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)