#multimodal-llm 主题 - Cyber Security Daily Radar

👥 作者: Bulat Nutfullin, Vladimir Evgrafov, Dmitry Namiot

该论文对多模态大语言模型（MLLMs）的推理时防御方法进行了比较实证评估。背景：MLLMs在安全关键场景中应用增多，但视觉通道使其易受对抗攻击，而主要面向文本的安全对齐只能部分应对。重新训练模型以适应每种新漏洞类成本过高。因此，研究聚焦于推理时防御。方法：在InternVL和Qwen-VL系列共8个模型上，针对4种攻击类别、7个安全基准、总计9000个评估样本，评估了三种推理时防御方法（安全提示、SmoothVLM、以及它们的组合）的效果。使用统一的代理分类器进行评估。主要发现：1）没有单一防御在所有设置中占优，效果取决于模型基线安全水平和攻击类型。2）直接组合防御会导致良性查询的过度拒绝率高达97-100%，而单独SmoothVLM也达99.2-100%。3）简单的安全提示能保持大部分效用（过度拒绝率0.0-18.2%，其中5个模型低于7%，两个超过15%），同时带来中等安全性提升。4）不同攻击类在不同的基准下暴露出不同弱点，凸显了多基准评估的重要性。5）在两项模型的初步白盒测试（n=20）中，文本级防御抑制了原本无防御时成功的PGD视觉攻击：防御作用于输出阶段，梯度优化在该配置下影响有限。结论：结果支持自适应防御选择而非单一固定防御配置。适合安全研究人员、LLM开发者和部署者阅读。

💡 推荐理由: 多模态大模型安全防护是当前热点，该研究系统比较了多种推理时防御方法的实际效果与权衡，为实际部署提供了选择指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tiejin Chen, Pingzhi Li, Kaixiong Zhou, Tianlong Chen, Hua Wei

本文系统性地研究了多模态大语言模型（MLLMs）中的隐私风险。与文本大语言模型（LLMs）不同，MLLMs同时处理文本和图像，图像中嵌入的敏感信息可能被模型提取并泄露。作者首先构建了MM-Privacy综合数据集，覆盖多种多模态任务和场景，定义了表露风险（Disclosure Risks）和留存风险（Retention Risks）。然后，他们使用MM-Privacy对多个MLLM进行了系统评估，发现模型在不同任务中均存在泄露敏感信息的问题。此外，论文还揭示了任务不一致性（task inconsistency）在隐私风险中的角色，并强调了制定缓解策略的紧迫性。实验结果表明，MLLMs的隐私风险不容忽视，亟需防护措施以防止数据暴露。该研究为多模态AI的隐私保护提供了基准和方向，适合安全研究人员和AI开发者阅读。

💡 推荐理由: 多模态大模型处理图像数据时可能泄露嵌入的敏感信息，现有文本LLM隐私防护不足以应对，本研究首次系统性揭露该风险，对蓝队评估MLLM安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yani Wang, Yilong Yang, Yang Liu, Zhuzhu Wang, Zuobin Ying, Zhuo Ma

该论文提出了一种名为分布式语义重组（DSR）的新型跨模态越狱攻击框架，旨在绕过多模态大语言模型（MLLM）的安全防护。现有安全措施主要针对单模态文本输入进行拦截，但跨模态攻击可能通过图像等非文本载体隐藏恶意意图。DSR的核心思想是将有害意图分解为一组良性的文本和视觉基元（例如无害的短语和图片），这些基元单独看来不包含危险内容，但经过模型的推理和跨模态融合后，能在输出端组合成有害信息。这种方法利用MLLM强大的指令遵循和推理能力，使得模型自身成为攻击的助力。该框架无需在输入中携带任何显式有害内容，因此难以被现有基于输入过滤的安全机制检测。实验在多个商业MLLM流水线上进行，结果显示DSR实现了极高的攻击成功率，同时输入毒性极低甚至可忽略不计。该工作揭示了MLLM中存在的“效用-安全悖论”：模型越能准确理解并执行复杂指令，就越容易被利用来生成有害输出。论文还讨论了防御方向，如加强跨模态推理阶段的监控和输出过滤。研究贡献在于首次系统性地提出并验证了纯良性输入导致有害输出的跨模态攻击范式，对MLLM安全设计具有重要警示意义。

💡 推荐理由: 揭示了MLLM面临的全新威胁：攻击者无需输入任何恶意内容，仅通过精心编排的良性文本和图像组合即可使模型生成危险输出。这对依赖输入过滤的现有防御体系构成了根本挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

多模态大语言模型（MLLM）在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入（如图像、视频），导致持续的多模态安全差距。本文从表示几何的角度研究这一现象，通过分析文本对齐的拒绝方向（refusal direction）和模态引起的漂移方向（drift direction），发现多模态输入会压缩沿拒绝方向的可分离性，使得该方向不再可靠地识别和拒绝有害输入，作者将此失效模式命名为“安全几何崩溃”（Safety Geometry Collapse）。为了量化该崩溃，论文提出了条件拒绝可分离性（conditional refusal separability）指标，并证明模态漂移越强，拒绝可分离性越弱，攻击成功率越高。通过固定强度的激活干预实验，作者验证了模态漂移的因果作用：沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是，在漂移校正后，模型展现出自我纠正（self-rectification）现象，即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力，该效应还提供了模型对输入危害程度的内部信号。基于这一信号，作者提出ReGap（Rectify Gap），一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明，ReGap能够显著提升MLLM的安全性，且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。

💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因，并提出无需重训练的推理时防御方法，对当前多模态大模型的安全部署具有直接参考价值。

🎯 建议动作: 研究跟进：建议安全研究团队复现论文核心实验，评估ReGap在自有场景下的有效性，并探索其与现有安全对齐技术的结合

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao

该论文提出了一种名为Odysseus的新型越狱攻击范式，针对商业多模态大语言模型（MLLM）集成系统。当前的安全过滤器通常假设恶意内容必须在输入或输出中显式可见才能被检测，但多模态系统允许攻击者利用图像等多重模态隐藏恶意意图。Odysseus采用双重隐写术：首先将恶意查询（如生成有害内容的指令）通过隐写技术编码到看似正常的图像中，作为输入提交给MLLM；然后MLLM生成的响应同样通过隐写术隐藏在另一张图像中输出。整个攻击过程中，输入和输出的文本表面均无恶意内容，从而绕过基于显式文本检测的安全过滤器。实验在多个商业MLLM集成系统（如GPT-4V等）上进行，攻击成功率高达99%。该研究揭示了现有防御机制的根本盲点，即过度依赖单模态的显式内容审查，而忽视了跨模态隐写承载恶意信息的能力。论文呼吁重新设计多模态系统的安全架构，考虑跨模态一致性和隐写检测。

💡 推荐理由: 该研究暴露了当前MLLM安全过滤器的致命盲点：它们无法检测跨模态隐写的恶意内容，使得商业系统面临严重越狱风险。

🎯 建议动作: 研究跟进，评估自身MLLM系统对该攻击的脆弱性，并考虑部署隐写检测与跨模态一致性检查。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun 0001

多模态大语言模型（MLLMs）在跨模态理解方面表现出色，但其视觉输入模块容易受到对抗攻击，即使文本安全机制完善。这些漏洞源于两个核心弱点：视觉表征的连续性允许基于梯度的攻击，以及文本安全机制无法充分迁移到视觉内容。本文提出 Q-MLLM，一种集成两级向量量化的新颖架构，通过创建离散瓶颈来抵御对抗攻击，同时保持多模态推理能力。该方法在像素块级和语义级对视觉表征进行离散化，阻断攻击路径并弥合跨模态安全对齐鸿沟。两阶段训练策略确保了鲁棒学习并维持模型效用。实验表明，Q-MLLM 在防御越狱攻击和有毒图像攻击方面显著优于现有方法，对越狱攻击实现了 100% 的防御成功率（仅有一个可争议案例除外），同时在多个效用基准上保持竞争性能，且推理开销极低。这项工作将向量量化确立了一种有效的防御机制，无需昂贵的专门安全微调或检测开销。

💡 推荐理由: 为多模态大模型提供了一种轻量、高效的对抗防御方案，无需额外安全微调即可实现近乎完美的越狱攻击防御，对提升 AI 系统安全性具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#multimodal-llm

Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

Benign Inputs, Harmful Outputs: Cross-Modal Jailbreaking via Distributed Semantic Recomposition

Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction

Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography.

Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security.