#vision-language-model 主题 - Cyber Security Daily Radar

👥 作者: Xingwei Zhong, Varun Sharma, Kar Wai Fok, Vrizlynn L. L. Thing

本文提出 DE-FIVE，一种无需重新训练的全新框架，用于检测针对视觉语言模型（VLM）的恶意图像提示。VLM 结合视觉和文本模态，但视觉模态的引入扩大了攻击面，例如对抗扰动和间接提示注入攻击，这些攻击通过精心构造的恶意图像提示诱导模型产生意外输出。现有防御方法通常需要大量数据集重新训练或部署额外复杂分类器，且缺乏专门针对间接提示注入的防御机制。DE-FIVE 利用傅里叶域特征和视觉编码器的隐藏状态表示（图像向量嵌入）实现混合检测策略：黑盒检测器基于傅里叶域特征，白盒检测器利用少量恶意样本导出的图像向量嵌入。实验结果表明，DE-FIVE 在检测恶意图像提示方面持续优于现有最先进基线。主要贡献包括：提出一种无训练、高效的检测框架；融合傅里叶特征和嵌入特征；设计黑盒和白盒双检测器；在标准数据集上验证有效性。本文适合从事 VLM 安全、对抗攻击防御和提示注入检测的研究人员阅读。

💡 推荐理由: 恶意图像提示攻击对 VLMs 构成严重威胁，现有防御不足。DE-FIVE 提供无需训练、高效的检测方案，填补了间接提示注入防御的空白。

🎯 建议动作: 研究跟进，评估框架在自身VLM环境中的适用性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hao Yang, Zhuo Ma, Yang Liu, Yilong Yang, Guancheng Wang, JianFeng Ma

本文提出一种针对大型视觉语言模型（LVLMs）的新型跨模态提示注入攻击方法CrossMPI。传统提示注入攻击通常局限于单一模态（如仅文本或仅图像），无法实现跨模态的提示扰动，即注入的提示只能影响模型对单一输入的解释。CrossMPI通过图像仅扰动实现跨模态注入，能够同时操纵模型对文本和视觉输入的解释。其核心创新在于将注入提示的扰动优化目标从视觉嵌入空间（约10^5参数）转向模型隐藏状态空间（约10^7参数），该空间负责多模态信息整合，从而增强攻击效果。为解决大参数空间优化带来的挑战，作者提出两项策略：一是层选择策略，识别对多模态整合最关键的网络层；二是距离递减扰动预算分配策略，根据像素与语义关键区域的距离递减分配扰动预算。实验表明，该方法在多个LVLMs和数据集上显著优于基线方法。本文揭示了LVLM在跨模态安全性方面的潜在漏洞，适合安全研究人员、多模态AI开发者及对抗攻击研究者阅读。

💡 推荐理由: 该研究首次实现仅通过图像扰动就能同时影响LVLM对文本和图像的解释，拓展了提示注入的攻击面，对多模态AI系统的安全部署构成威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmad Albarqawi, Mahmoud Nazzal, Issa Khalil, Abdallah Khreishah, NhatHai Phan

随着深度伪造技术的快速发展，生成逼真的虚假数字内容对媒体真实性构成严重威胁。传统的深度伪造检测方法在面对定制化、复杂的深度伪造时，泛化能力和鲁棒性往往不足。本文提出了一种名为ViGText的新方法，该方法创新地将图像与视觉大语言模型（VLLM）的文本解释相结合，并基于图神经网络（GNN）框架进行深度伪造检测。ViGText的核心在于利用详细的解释文本而非简单的标题，提供更丰富的上下文信息，从而捕捉细微的不一致性。具体而言，ViGText将图像划分为多个补丁，分别构建图像图和文本图，并通过GNN整合分析。方法还采用了跨空间域和频率域的多级特征提取，以增强对复杂深度伪造的检测鲁棒性。大量实验表明，ViGText在泛化性能上显著提升：在泛化评估中，平均F1分数从72.45%提升至98.32%；面对用户定制化的稳定扩散模型变体时，表现出优异的泛化能力。鲁棒性方面，ViGText的召回率相比其他方法提升了11.1%。针对利用其图架构的定向攻击，ViGText将分类性能下降限制在4%以内。本研究为深度伪造检测设立了新标准，有助于维护媒体真实性和信息完整性。

💡 推荐理由: ViGText结合视觉语言模型与图神经网络，显著提升了深度伪造检测的泛化能力和鲁棒性，为安全团队应对日益复杂的AI生成虚假内容提供了新思路。

🎯 建议动作: 研究跟进，评估将ViGText集成到现有深度伪造检测管道的可行性。

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#vision-language-model

DE-FIVE: Detecting Malicious Image Prompts via Fourier Features and Image Vector Embeddings

A Cross-Modal Prompt Injection Attack against Large Vision-Language Models with Image-Only Perturbation

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks.