#multimodal-llm

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

多模态大语言模型(MLLM)在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入(如图像、视频),导致持续的多模态安全差距。本文从表示几何的角度研究这一现象,通过分析文本对齐的拒绝方向(refusal direction)和模态引起的漂移方向(drift direction),发现多模态输入会压缩沿拒绝方向的可分离性,使得该方向不再可靠地识别和拒绝有害输入,作者将此失效模式命名为“安全几何崩溃”(Safety Geometry Collapse)。为了量化该崩溃,论文提出了条件拒绝可分离性(conditional refusal separability)指标,并证明模态漂移越强,拒绝可分离性越弱,攻击成功率越高。通过固定强度的激活干预实验,作者验证了模态漂移的因果作用:沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是,在漂移校正后,模型展现出自我纠正(self-rectification)现象,即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力,该效应还提供了模型对输入危害程度的内部信号。基于这一信号,作者提出ReGap(Rectify Gap),一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明,ReGap能够显著提升MLLM的安全性,且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。

💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因,并提出无需重训练的推理时防御方法,对当前多模态大模型的安全部署具有直接参考价值。

🎯 建议动作: 研究跟进:建议安全研究团队复现论文核心实验,评估ReGap在自有场景下的有效性,并探索其与现有安全对齐技术的结合

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao

该论文提出了一种名为Odysseus的新型越狱攻击范式,针对商业多模态大语言模型(MLLM)集成系统。当前的安全过滤器通常假设恶意内容必须在输入或输出中显式可见才能被检测,但多模态系统允许攻击者利用图像等多重模态隐藏恶意意图。Odysseus采用双重隐写术:首先将恶意查询(如生成有害内容的指令)通过隐写技术编码到看似正常的图像中,作为输入提交给MLLM;然后MLLM生成的响应同样通过隐写术隐藏在另一张图像中输出。整个攻击过程中,输入和输出的文本表面均无恶意内容,从而绕过基于显式文本检测的安全过滤器。实验在多个商业MLLM集成系统(如GPT-4V等)上进行,攻击成功率高达99%。该研究揭示了现有防御机制的根本盲点,即过度依赖单模态的显式内容审查,而忽视了跨模态隐写承载恶意信息的能力。论文呼吁重新设计多模态系统的安全架构,考虑跨模态一致性和隐写检测。

💡 推荐理由: 该研究暴露了当前MLLM安全过滤器的致命盲点:它们无法检测跨模态隐写的恶意内容,使得商业系统面临严重越狱风险。

🎯 建议动作: 研究跟进,评估自身MLLM系统对该攻击的脆弱性,并考虑部署隐写检测与跨模态一致性检查。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun 0001

多模态大语言模型(MLLMs)在跨模态理解方面表现出色,但其视觉输入模块容易受到对抗攻击,即使文本安全机制完善。这些漏洞源于两个核心弱点:视觉表征的连续性允许基于梯度的攻击,以及文本安全机制无法充分迁移到视觉内容。本文提出 Q-MLLM,一种集成两级向量量化的新颖架构,通过创建离散瓶颈来抵御对抗攻击,同时保持多模态推理能力。该方法在像素块级和语义级对视觉表征进行离散化,阻断攻击路径并弥合跨模态安全对齐鸿沟。两阶段训练策略确保了鲁棒学习并维持模型效用。实验表明,Q-MLLM 在防御越狱攻击和有毒图像攻击方面显著优于现有方法,对越狱攻击实现了 100% 的防御成功率(仅有一个可争议案例除外),同时在多个效用基准上保持竞争性能,且推理开销极低。这项工作将向量量化确立了一种有效的防御机制,无需昂贵的专门安全微调或检测开销。

💡 推荐理由: 为多模态大模型提供了一种轻量、高效的对抗防御方案,无需额外安全微调即可实现近乎完美的越狱攻击防御,对提升 AI 系统安全性具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)