本文提出一种针对大型视觉语言模型(LVLMs)的新型跨模态提示注入攻击方法CrossMPI。传统提示注入攻击通常局限于单一模态(如仅文本或仅图像),无法实现跨模态的提示扰动,即注入的提示只能影响模型对单一输入的解释。CrossMPI通过图像仅扰动实现跨模态注入,能够同时操纵模型对文本和视觉输入的解释。其核心创新在于将注入提示的扰动优化目标从视觉嵌入空间(约10^5参数)转向模型隐藏状态空间(约10^7参数),该空间负责多模态信息整合,从而增强攻击效果。为解决大参数空间优化带来的挑战,作者提出两项策略:一是层选择策略,识别对多模态整合最关键的网络层;二是距离递减扰动预算分配策略,根据像素与语义关键区域的距离递减分配扰动预算。实验表明,该方法在多个LVLMs和数据集上显著优于基线方法。本文揭示了LVLM在跨模态安全性方面的潜在漏洞,适合安全研究人员、多模态AI开发者及对抗攻击研究者阅读。
💡 推荐理由: 该研究首次实现仅通过图像扰动就能同时影响LVLM对文本和图像的解释,拓展了提示注入的攻击面,对多模态AI系统的安全部署构成威胁。
🎯 建议动作: 研究跟进