#vision-language 主题 - Cyber Security Daily Radar

👥 作者: Yuchen Ren, Zhengyu Zhao, Chenhao Lin, Bo Yang, Chao Shen

视觉-语言预训练模型（VLPMs）已被证实容易受到对抗性攻击。现有的可迁移攻击通常采用复杂的损失函数或多阶段文本/图像攻击流程，但本文发现这些复杂设计反而存在三个先前被忽视的问题：不恰当的跨模态交互和冗余操作导致攻击效果受限。为解决这些问题，作者提出简单视觉-语言攻击（SimVLA）流程，通过简化跨模态交互（如跨模态单词识别）并去除不必要的复杂损失函数和多阶段设计，显著提升了攻击的可迁移性和效率。在四个数据集和三个下游任务（如图像-文本检索）上的实验表明，SimVLA在Flickr30k数据集上的R@1可迁移性超越当前最优基线8.01%-14.71%，同时仅消耗约35.73%的时间和46.26%的最大显存。该工作强调领域知识（如跨模态单词识别）的重要性，而盲目追求复杂操作反而有害。代码已开源。本研究面向视觉-语言安全领域的研究人员和防御者，揭示了当前攻击流程中过度复杂化的弊端，并提供了一个简单且高效的攻击基线。

💡 推荐理由: 该研究揭示了一种更高效、更实用的视觉-语言对抗攻击方法，可替代现有复杂流程，可能降低攻击门槛。蓝队需关注其攻击向量，以改进视觉-语言模型的防御策略。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Abrar Alotaibi, Moataz Ahmed

本文是一篇关于对抗性攻击与防御在跨模态AI系统中的综述，聚焦于扩散模型在文本（LLM）、图像分类器、视觉-语言模型（VLM）以及输入净化防御中作为攻击或防御机制的统一框架。作者将过去沿着四个相对独立轨迹发展的研究整合起来：基于扩散的文本/LLM攻击、基于扩散的图像分类器攻击、针对VLM的越狱流水线、以及基于扩散的输入净化防御。综述分析了50篇已发表论文，覆盖四个主要领域（文本/LLM、图像分类器、VLM、防御），还包括4个以扩散LLM为受害者的条目和10个非扩散基线方法。作者提出了一个六类扩散角色分类法（如生成对抗样本、净化噪声等），并结合威胁模型维度（攻击者知识、查询预算、目标可访问性）进行标注，同时采用五维评估框架（攻击成功率、可迁移性、查询预算、困惑度、防御规避性）跨模态统一度量。本文采用攻击者-防御者双重视角，除攻击分类外，还涵盖四种基于扩散的防御方法。批判性分析指出了当前LLM侧文献中五个反复出现的弱点，并提出了开放问题与具体实验设计的研究议程。论文附带目录和电子表格。

💡 推荐理由: 该综述首次跨模态统一了扩散模型在对抗性攻击与防御中的角色，为安全从业者提供了系统性的技术分类和评估框架，有助于理解跨模态攻击的共性和迁移风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiamin Chang, Salil Kanhere, Piotr Koniusz, Jason, Xue, Hammond Pearce

本文研究视觉-语言智能体系统（VLAS）中的后门攻击问题。VLAS将视觉感知与规划、工具使用和物理动作相连接，因此后门触发器可以通过决策管线及其连接的接口传播，使视觉后门成为系统级威胁。当前评估仅关注干净准确率和攻击成功率（ASR），这些指标只衡量触发器是否有效，但无法判断攻击是否“精确”——即是否仅在预期条件下触发隐藏行为。本文形式化了触发器不精确的失败为“触发器泄露”：视觉或语义上与预期触发器相近的输入，无意中激活了攻击者指定的行为。为量化泄露，作者提出邻域泄露率（NLR）。实验表明，在3%的投毒比例下，图标和文本触发器对常见视觉变换保持鲁棒，但其邻近变体泄露严重，NLR分别达到0.996（图标）和0.944（文本）。使用文本触发器作为受控探针，结果表明标准微调学习到一个较宽的激活区域而非精确触发条件，导致即使是稍有不同的邻近字符串也会调用恶意行为。通过加入编辑距离为1的硬负样本进行训练，可以显著缩小激活区域并减少泄露，在图像编辑和具身操作工作流中，泄露的触发器可能传播到可执行程序和动作序列。本研究的贡献在于正式定义了触发泄露问题，提出了NLR指标，并展示了通过硬负样本训练来缓解泄露的方法。适合对AI安全、后门攻击防御感兴趣的学术界和工业界研究人员阅读。

💡 推荐理由: 后门攻击在VLAS中的精确性问题常被忽视，本工作揭示了标准评估指标的盲区，并提出NLR新指标，为提升智能体系统安全性提供了新视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu

本文针对视觉-语言预训练（VLP）模型的对抗可迁移性问题展开研究。现有基于迁移的黑盒攻击方法通常严重依赖替代模型，导致对抗样本在替代模型上有效，但在未知目标模型上效果不佳。作者将此归因于对抗优化过程中替代模型特定的偏差（surrogate-specific bias），即更新方向更多地响应替代模型的特性而非输入语义。为纠正这一偏差，提出 DeBias-Attack 方法。该方法维护两个扰动分支：主分支在原始图像上优化扰动，获取破坏图像-文本对齐的对抗梯度；参考分支在弱语义图像上优化扰动，该弱语义图像由数据集平均图像加上每轮重新采样的小高斯噪声构成，由于缺乏清晰视觉内容，其优化过程更能反映替代模型的响应，从而估计出替代特定偏差。通过从主梯度中移除其在参考梯度上的对齐投影，再结合上下文感知文本替换更新对抗图像，实现偏差纠正。实验在多种 VLP 模型（如 ALBEF、BLIP）、下游任务（图像检索、图像描述）以及开源和闭源多模态大语言模型上验证了该方法的优越性能。本文首次将梯度校正引入 VLP 迁移攻击，为黑盒攻防研究提供了新视角。

💡 推荐理由: 本研究揭示了VLP模型对抗迁移性瓶颈的根源——替代特定偏差，并提出有效纠正方法，为设计更鲁棒的视觉-语言模型及防御策略提供关键参考。

🎯 建议动作: 研究跟进，评估该方法对内部VLP模型的影响，并探索相应的防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#vision-language

On Success and Simplicity: A Second Look at Transferable Vision-Language Attack Pipeline

Adversarial Diffusion Across Modalities: A Fusion Survey of Attacks, Defenses, and Evaluation for Text, Vision, and Vision-Language Models

Beyond Attack Success Rate: Examining Trigger Leakage in Vision-Language Agentic Systems

Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction