#transferability

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu

本文针对视觉-语言预训练(VLP)模型的对抗可迁移性问题展开研究。现有基于迁移的黑盒攻击方法通常严重依赖替代模型,导致对抗样本在替代模型上有效,但在未知目标模型上效果不佳。作者将此归因于对抗优化过程中替代模型特定的偏差(surrogate-specific bias),即更新方向更多地响应替代模型的特性而非输入语义。为纠正这一偏差,提出 DeBias-Attack 方法。该方法维护两个扰动分支:主分支在原始图像上优化扰动,获取破坏图像-文本对齐的对抗梯度;参考分支在弱语义图像上优化扰动,该弱语义图像由数据集平均图像加上每轮重新采样的小高斯噪声构成,由于缺乏清晰视觉内容,其优化过程更能反映替代模型的响应,从而估计出替代特定偏差。通过从主梯度中移除其在参考梯度上的对齐投影,再结合上下文感知文本替换更新对抗图像,实现偏差纠正。实验在多种 VLP 模型(如 ALBEF、BLIP)、下游任务(图像检索、图像描述)以及开源和闭源多模态大语言模型上验证了该方法的优越性能。本文首次将梯度校正引入 VLP 迁移攻击,为黑盒攻防研究提供了新视角。

💡 推荐理由: 本研究揭示了VLP模型对抗迁移性瓶颈的根源——替代特定偏差,并提出有效纠正方法,为设计更鲁棒的视觉-语言模型及防御策略提供关键参考。

🎯 建议动作: 研究跟进,评估该方法对内部VLP模型的影响,并探索相应的防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Leitao Yuan, Qinghua Mao, Daizong Liu, Kun Wang, Wenjie Wang, Yan Teng, Jing Shao, Dongrui Liu

多模态大语言模型(MLLMs)尽管性能强大,但仍易受基于迁移的目标攻击:攻击者在开源代理编码器上优化扰动,该扰动可泛化至闭源MLLMs。提升对抗迁移性的关键在于有效捕获不同模型共享的内在视觉焦点,使扰动对齐可迁移的语义线索而非代理特定行为。现有方法受限于空间域特征冗余和代理特定梯度信号,阻碍了跨模型迁移性。本文提出FRA-Attack,从统一的频率域正则化视角解决这两个挑战。在特征对齐方面,对块特征使用高通DCT目标,抑制冗余全局结构并将损失集中在承载MLLMs内在视觉焦点的高频带上。在梯度优化方面,引入频率域梯度正则化(FGR),一种模型无关的低通正则化器,仅利用几何频率坐标调节代理梯度,不涉及任何代理导出统计量,因此FGR天然模型无关,去除代理特定高频伪影的同时保留可迁移的低频方向。两者结合形成统一的频率域迁移性处理。在来自7个供应商的15个旗舰MLLM上的广泛实验表明,FRA-Attack实现了优异的跨模型迁移性,尤其在GPT-5.4、Claude-Opus-4.6和Gemini-3-flash上达到最先进性能。

💡 推荐理由: 该攻击方法揭示了当前MLLMs在对抗迁移性方面的严重脆弱性,防御者需关注频域特征对齐和梯度正则化作为潜在防御思路,并评估自研模型对类似攻击的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)