#vector-quantization

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun 0001

多模态大语言模型(MLLMs)在跨模态理解方面表现出色,但其视觉输入模块容易受到对抗攻击,即使文本安全机制完善。这些漏洞源于两个核心弱点:视觉表征的连续性允许基于梯度的攻击,以及文本安全机制无法充分迁移到视觉内容。本文提出 Q-MLLM,一种集成两级向量量化的新颖架构,通过创建离散瓶颈来抵御对抗攻击,同时保持多模态推理能力。该方法在像素块级和语义级对视觉表征进行离散化,阻断攻击路径并弥合跨模态安全对齐鸿沟。两阶段训练策略确保了鲁棒学习并维持模型效用。实验表明,Q-MLLM 在防御越狱攻击和有毒图像攻击方面显著优于现有方法,对越狱攻击实现了 100% 的防御成功率(仅有一个可争议案例除外),同时在多个效用基准上保持竞争性能,且推理开销极低。这项工作将向量量化确立了一种有效的防御机制,无需昂贵的专门安全微调或检测开销。

💡 推荐理由: 为多模态大模型提供了一种轻量、高效的对抗防御方案,无需额外安全微调即可实现近乎完美的越狱攻击防御,对提升 AI 系统安全性具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)