多模态大语言模型(MLLM)在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入(如图像、视频),导致持续的多模态安全差距。本文从表示几何的角度研究这一现象,通过分析文本对齐的拒绝方向(refusal direction)和模态引起的漂移方向(drift direction),发现多模态输入会压缩沿拒绝方向的可分离性,使得该方向不再可靠地识别和拒绝有害输入,作者将此失效模式命名为“安全几何崩溃”(Safety Geometry Collapse)。为了量化该崩溃,论文提出了条件拒绝可分离性(conditional refusal separability)指标,并证明模态漂移越强,拒绝可分离性越弱,攻击成功率越高。通过固定强度的激活干预实验,作者验证了模态漂移的因果作用:沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是,在漂移校正后,模型展现出自我纠正(self-rectification)现象,即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力,该效应还提供了模型对输入危害程度的内部信号。基于这一信号,作者提出ReGap(Rectify Gap),一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明,ReGap能够显著提升MLLM的安全性,且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。
💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因,并提出无需重训练的推理时防御方法,对当前多模态大模型的安全部署具有直接参考价值。
🎯 建议动作: 研究跟进:建议安全研究团队复现论文核心实验,评估ReGap在自有场景下的有效性,并探索其与现有安全对齐技术的结合