#inference-time-defense 主题 - Cyber Security Daily Radar

👥 作者: Bulat Nutfullin, Vladimir Evgrafov, Dmitry Namiot

该论文对多模态大语言模型（MLLMs）的推理时防御方法进行了比较实证评估。背景：MLLMs在安全关键场景中应用增多，但视觉通道使其易受对抗攻击，而主要面向文本的安全对齐只能部分应对。重新训练模型以适应每种新漏洞类成本过高。因此，研究聚焦于推理时防御。方法：在InternVL和Qwen-VL系列共8个模型上，针对4种攻击类别、7个安全基准、总计9000个评估样本，评估了三种推理时防御方法（安全提示、SmoothVLM、以及它们的组合）的效果。使用统一的代理分类器进行评估。主要发现：1）没有单一防御在所有设置中占优，效果取决于模型基线安全水平和攻击类型。2）直接组合防御会导致良性查询的过度拒绝率高达97-100%，而单独SmoothVLM也达99.2-100%。3）简单的安全提示能保持大部分效用（过度拒绝率0.0-18.2%，其中5个模型低于7%，两个超过15%），同时带来中等安全性提升。4）不同攻击类在不同的基准下暴露出不同弱点，凸显了多基准评估的重要性。5）在两项模型的初步白盒测试（n=20）中，文本级防御抑制了原本无防御时成功的PGD视觉攻击：防御作用于输出阶段，梯度优化在该配置下影响有限。结论：结果支持自适应防御选择而非单一固定防御配置。适合安全研究人员、LLM开发者和部署者阅读。

💡 推荐理由: 多模态大模型安全防护是当前热点，该研究系统比较了多种推理时防御方法的实际效果与权衡，为实际部署提供了选择指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#inference-time-defense

Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models