#transferability 主题 - Cyber Security Daily Radar

👥 作者: Hanrui Wang, Ruihao Zheng, Shuo Wang, Isao Echizen, Xingbo Dong, Zhe Jin

该论文揭示了鲁棒性优化防御（如对抗训练和对抗净化）中存在一种新的安全风险：共享脆弱性。尽管这些防御方法在单独评估时能显著提升模型对对抗样本的鲁棒性，但一旦某一代表性防御被有效攻破，整个同类防御家族可能面临暴露。为了区分真正的可迁移性、失真导致的退化以及复杂攻击的算法增益，作者引入了更严格的仅迁移（transfer-only）协议，并设计了一种简单的自适应攻击 PGDTransfer。此外，他们提出了对抗敏感性图（Adversarial Sensitivity Maps, AdvSMs），用于可视化和量化超过可微分类器的共享对齐，包括随机和非可微防御。实验覆盖了对抗训练的分类器、基于净化的防御以及具有鲁棒视觉编码器的大型视觉语言模型（LVLMs）。结果表明，在每个鲁棒性家族内部存在自然的可迁移性，即使用简单的 PGD 风格优化即可实现迁移，而无需专门的可迁移性攻击设计。风险在净化防御中尤为严重：在 ε=4/255 下，PGDTransfer 在基于滤波、压缩和扩散的净化器上平均迁移攻击成功率达到 80.4%，表明净化防御可能不再提供可靠保护。随着攻击技术的进步，当前更强大的鲁棒性家族也可能面临相同风险。因此，未来防御应将脆弱性多样性和迁移隔离作为安全目标，而非仅优化个体鲁棒性。

💡 推荐理由: 该研究首次系统性地揭示鲁棒性优化防御可能因共享脆弱性而整体失效，颠覆了单纯堆叠鲁棒性指标的防御思路，对安全社区设计新一代不可迁移、异构化的防御策略具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yuchen Ren, Zhengyu Zhao, Chenhao Lin, Bo Yang, Chao Shen

视觉-语言预训练模型（VLPMs）已被证实容易受到对抗性攻击。现有的可迁移攻击通常采用复杂的损失函数或多阶段文本/图像攻击流程，但本文发现这些复杂设计反而存在三个先前被忽视的问题：不恰当的跨模态交互和冗余操作导致攻击效果受限。为解决这些问题，作者提出简单视觉-语言攻击（SimVLA）流程，通过简化跨模态交互（如跨模态单词识别）并去除不必要的复杂损失函数和多阶段设计，显著提升了攻击的可迁移性和效率。在四个数据集和三个下游任务（如图像-文本检索）上的实验表明，SimVLA在Flickr30k数据集上的R@1可迁移性超越当前最优基线8.01%-14.71%，同时仅消耗约35.73%的时间和46.26%的最大显存。该工作强调领域知识（如跨模态单词识别）的重要性，而盲目追求复杂操作反而有害。代码已开源。本研究面向视觉-语言安全领域的研究人员和防御者，揭示了当前攻击流程中过度复杂化的弊端，并提供了一个简单且高效的攻击基线。

💡 推荐理由: 该研究揭示了一种更高效、更实用的视觉-语言对抗攻击方法，可替代现有复杂流程，可能降低攻击门槛。蓝队需关注其攻击向量，以改进视觉-语言模型的防御策略。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuhang Jiang, Xiaojing Chen

本文揭示了在基于迁移的对抗攻击中，输入多样性（Input Diversity, DI）这一常用技巧对攻击迁移性的影响存在非单调的“剪刀效应”。DI通过在每次攻击迭代中对输入图像进行随机缩放和填充来增强攻击的鲁棒性，通常被认为能普遍提高迁移成功率。然而，作者发现这一假设依赖于目标模型的类型：对于标准训练的代理模型，增加DI概率确实提升迁移成功率；但对于经过鲁棒训练的代理模型，DI反而显著降低迁移成功率，两者的响应曲线像剪刀一样分离。在ImageNet数据集上，盲目使用DI导致针对CNN、ViT、Swin和ConvNeXt等目标模型，以及2018至2024年间十种攻击的平均攻击成功率下降10.3%。在CIFAR-10上该效应较弱，除非DI强度较大。通过控制鲁棒性强度的实验表明，这种损害是渐进的而非二元的，在弱鲁棒性区域就已出现转折。作者将原因追溯到梯度几何：通过缩放/平移分解，约67%的损害归因于缩放操作；直接测量源-目标梯度对齐发现，相同缩放操作对标准代理改善对齐，对鲁棒代理则恶化对齐。作者提出局部梯度一致性（Local Gradient Consistency, LGC）指标来区分两种代理类型，并证明了一个偏差-方差交叉定理，隔离了DI有益的区间与缩放偏差占主导的区间。最后，提出无需重新训练的策略CG-DI，即当LGC高时禁用DI，从而保留标准代理上DI的益处并避免鲁棒代理上的损失。这项工作将剪刀效应定位为更广泛的鲁棒性-迁移性权衡在DI上的具体表现。

💡 推荐理由: 对抗攻击的迁移性是评估防御鲁棒性的关键指标。本文发现广泛使用的输入多样性技巧在鲁棒模型上反而有害，这一反直觉结果将影响攻击评估和防御设计的实践，值得安全研究人员重新审视攻击算法的默认设置。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu

本文针对视觉-语言预训练（VLP）模型的对抗可迁移性问题展开研究。现有基于迁移的黑盒攻击方法通常严重依赖替代模型，导致对抗样本在替代模型上有效，但在未知目标模型上效果不佳。作者将此归因于对抗优化过程中替代模型特定的偏差（surrogate-specific bias），即更新方向更多地响应替代模型的特性而非输入语义。为纠正这一偏差，提出 DeBias-Attack 方法。该方法维护两个扰动分支：主分支在原始图像上优化扰动，获取破坏图像-文本对齐的对抗梯度；参考分支在弱语义图像上优化扰动，该弱语义图像由数据集平均图像加上每轮重新采样的小高斯噪声构成，由于缺乏清晰视觉内容，其优化过程更能反映替代模型的响应，从而估计出替代特定偏差。通过从主梯度中移除其在参考梯度上的对齐投影，再结合上下文感知文本替换更新对抗图像，实现偏差纠正。实验在多种 VLP 模型（如 ALBEF、BLIP）、下游任务（图像检索、图像描述）以及开源和闭源多模态大语言模型上验证了该方法的优越性能。本文首次将梯度校正引入 VLP 迁移攻击，为黑盒攻防研究提供了新视角。

💡 推荐理由: 本研究揭示了VLP模型对抗迁移性瓶颈的根源——替代特定偏差，并提出有效纠正方法，为设计更鲁棒的视觉-语言模型及防御策略提供关键参考。

🎯 建议动作: 研究跟进，评估该方法对内部VLP模型的影响，并探索相应的防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Leitao Yuan, Qinghua Mao, Daizong Liu, Kun Wang, Wenjie Wang, Yan Teng, Jing Shao, Dongrui Liu

多模态大语言模型（MLLMs）尽管性能强大，但仍易受基于迁移的目标攻击：攻击者在开源代理编码器上优化扰动，该扰动可泛化至闭源MLLMs。提升对抗迁移性的关键在于有效捕获不同模型共享的内在视觉焦点，使扰动对齐可迁移的语义线索而非代理特定行为。现有方法受限于空间域特征冗余和代理特定梯度信号，阻碍了跨模型迁移性。本文提出FRA-Attack，从统一的频率域正则化视角解决这两个挑战。在特征对齐方面，对块特征使用高通DCT目标，抑制冗余全局结构并将损失集中在承载MLLMs内在视觉焦点的高频带上。在梯度优化方面，引入频率域梯度正则化（FGR），一种模型无关的低通正则化器，仅利用几何频率坐标调节代理梯度，不涉及任何代理导出统计量，因此FGR天然模型无关，去除代理特定高频伪影的同时保留可迁移的低频方向。两者结合形成统一的频率域迁移性处理。在来自7个供应商的15个旗舰MLLM上的广泛实验表明，FRA-Attack实现了优异的跨模型迁移性，尤其在GPT-5.4、Claude-Opus-4.6和Gemini-3-flash上达到最先进性能。

💡 推荐理由: 该攻击方法揭示了当前MLLMs在对抗迁移性方面的严重脆弱性，防御者需关注频域特征对齐和梯度正则化作为潜在防御思路，并评估自研模型对类似攻击的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#transferability

Shared Vulnerabilities in Robustness-Optimized Defenses: One Breach Exposes the Family

On Success and Simplicity: A Second Look at Transferable Vision-Language Attack Pipeline

The Scissors Effect: When Resize-Based Input Diversity Helps or Hurts Transfer Attacks

Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction

Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs