#inference-time-defense

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Bulat Nutfullin, Vladimir Evgrafov, Dmitry Namiot

该论文对多模态大语言模型(MLLMs)的推理时防御方法进行了比较实证评估。背景:MLLMs在安全关键场景中应用增多,但视觉通道使其易受对抗攻击,而主要面向文本的安全对齐只能部分应对。重新训练模型以适应每种新漏洞类成本过高。因此,研究聚焦于推理时防御。方法:在InternVL和Qwen-VL系列共8个模型上,针对4种攻击类别、7个安全基准、总计9000个评估样本,评估了三种推理时防御方法(安全提示、SmoothVLM、以及它们的组合)的效果。使用统一的代理分类器进行评估。主要发现:1)没有单一防御在所有设置中占优,效果取决于模型基线安全水平和攻击类型。2)直接组合防御会导致良性查询的过度拒绝率高达97-100%,而单独SmoothVLM也达99.2-100%。3)简单的安全提示能保持大部分效用(过度拒绝率0.0-18.2%,其中5个模型低于7%,两个超过15%),同时带来中等安全性提升。4)不同攻击类在不同的基准下暴露出不同弱点,凸显了多基准评估的重要性。5)在两项模型的初步白盒测试(n=20)中,文本级防御抑制了原本无防御时成功的PGD视觉攻击:防御作用于输出阶段,梯度优化在该配置下影响有限。结论:结果支持自适应防御选择而非单一固定防御配置。适合安全研究人员、LLM开发者和部署者阅读。

💡 推荐理由: 多模态大模型安全防护是当前热点,该研究系统比较了多种推理时防御方法的实际效果与权衡,为实际部署提供了选择指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)