#safety robustness 主题 - Cyber Security Daily Radar

👥 作者: Yuan Tian, Bing Hu, Fang Wu, Xiaomin Li, Binghang Lu, Neil Zhenqiang Gong

本文研究了大型视觉语言模型（LVLM）中新兴的“伴随图像思考”（think-with-image）推理范式的安全性，特别是其对多模态越狱（jailbreak）鲁棒性的影响。现有系统已包含多种流程设计，如直接响应生成、纯文本前置回合、视觉状态操作以及显式外部图像工具调用。作者通过实验评估了这些范式在多模态越狱攻击下的鲁棒性，发现显式图像工具交互范式能够显著降低攻击成功率，在多个模型上平均相对降低约30%。这一发现最初令人惊讶，因为即使返回的图像工具输出被手动覆盖或本身看起来不安全，攻击成功率仍然较低，但在纯文本前置回合控制下会恢复到接近直接回答的水平。这表明低攻击成功率并非由返回图像的良性语义或文本图像工具痕迹单独解释。为了解释这一现象，作者引入了图像工具安全向量框架，将图像工具调用建模为隐藏表示向安全相关方向的残差偏移。基于表示层面的分析和激活干预实验支持了这一解释。总体而言，该研究表明显式图像工具交互是提高越狱鲁棒性的一种有前景的设计模式，同时促使对流程特定安全评估的需求。本文适合关注大模型安全、多模态AI系统风险及防御策略的研究者和安全工程师阅读。

💡 推荐理由: 多模态大模型正广泛部署，但其推理流程中的安全隐患尚不明晰。本文系统揭示了“显式图像工具调用”能显著提升越狱鲁棒性，为设计更安全的多模态系统提供了可操作方向，值得安全从业者关注。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#safety robustness

When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?