本文是一篇关于对抗性攻击与防御在跨模态AI系统中的综述,聚焦于扩散模型在文本(LLM)、图像分类器、视觉-语言模型(VLM)以及输入净化防御中作为攻击或防御机制的统一框架。作者将过去沿着四个相对独立轨迹发展的研究整合起来:基于扩散的文本/LLM攻击、基于扩散的图像分类器攻击、针对VLM的越狱流水线、以及基于扩散的输入净化防御。综述分析了50篇已发表论文,覆盖四个主要领域(文本/LLM、图像分类器、VLM、防御),还包括4个以扩散LLM为受害者的条目和10个非扩散基线方法。作者提出了一个六类扩散角色分类法(如生成对抗样本、净化噪声等),并结合威胁模型维度(攻击者知识、查询预算、目标可访问性)进行标注,同时采用五维评估框架(攻击成功率、可迁移性、查询预算、困惑度、防御规避性)跨模态统一度量。本文采用攻击者-防御者双重视角,除攻击分类外,还涵盖四种基于扩散的防御方法。批判性分析指出了当前LLM侧文献中五个反复出现的弱点,并提出了开放问题与具体实验设计的研究议程。论文附带目录和电子表格。
💡 推荐理由: 该综述首次跨模态统一了扩散模型在对抗性攻击与防御中的角色,为安全从业者提供了系统性的技术分类和评估框架,有助于理解跨模态攻击的共性和迁移风险。
🎯 建议动作: 研究跟进