#cross-modal-jailbreak 主题 - Cyber Security Daily Radar

👥 作者: Yani Wang, Yilong Yang, Yang Liu, Zhuzhu Wang, Zuobin Ying, Zhuo Ma

该论文提出了一种名为分布式语义重组（DSR）的新型跨模态越狱攻击框架，旨在绕过多模态大语言模型（MLLM）的安全防护。现有安全措施主要针对单模态文本输入进行拦截，但跨模态攻击可能通过图像等非文本载体隐藏恶意意图。DSR的核心思想是将有害意图分解为一组良性的文本和视觉基元（例如无害的短语和图片），这些基元单独看来不包含危险内容，但经过模型的推理和跨模态融合后，能在输出端组合成有害信息。这种方法利用MLLM强大的指令遵循和推理能力，使得模型自身成为攻击的助力。该框架无需在输入中携带任何显式有害内容，因此难以被现有基于输入过滤的安全机制检测。实验在多个商业MLLM流水线上进行，结果显示DSR实现了极高的攻击成功率，同时输入毒性极低甚至可忽略不计。该工作揭示了MLLM中存在的“效用-安全悖论”：模型越能准确理解并执行复杂指令，就越容易被利用来生成有害输出。论文还讨论了防御方向，如加强跨模态推理阶段的监控和输出过滤。研究贡献在于首次系统性地提出并验证了纯良性输入导致有害输出的跨模态攻击范式，对MLLM安全设计具有重要警示意义。

💡 推荐理由: 揭示了MLLM面临的全新威胁：攻击者无需输入任何恶意内容，仅通过精心编排的良性文本和图像组合即可使模型生成危险输出。这对依赖输入过滤的现有防御体系构成了根本挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#cross-modal-jailbreak

Benign Inputs, Harmful Outputs: Cross-Modal Jailbreaking via Distributed Semantic Recomposition