多模态大语言模型(MLLMs)在接收多图像输入时存在安全隐患。现有越狱方法仅使用单张图像,限制了攻击空间:无法将有害请求分布到多张图像、携带丰富信息或利用额外视觉推理任务分散模型注意力。本文提出一种组合式越狱框架DMN,通过分布式指令(Distributed instruction)、多模态证据(Multimodal evidence)和数字链任务(Number chain task)全面增强越狱效果。分布式指令将有害内容拆解到多张图像中,绕过单图安全审查;多模态证据利用图像与文本的关联构建推理链条;数字链任务强制模型进行数值排序,分散其对危险内容的警觉。实验表明,DMN在GPT-4o、Gemini-2.5-pro和Claude Sonnet 4上攻击成功率超过90%,显著优于现有基准。该框架揭示出当前多模态安全对齐机制在组合式、多图像输入场景下的根本性弱点。研究为多模态AI安全评估提供了新视角,提示开发者在多图像条件下需强化安全对齐策略。
💡 推荐理由: 该研究揭示多模态大模型在多图像输入场景下的安全漏洞,攻击成功率极高,直接影响GPT-4o等主流商业模型的安全性评估,推动安全对齐方案改进。
🎯 建议动作: 研究跟进