#vlm 主题 - Cyber Security Daily Radar

👥 作者: Zidong Zhang, Zhentao Xie, Wenrui Diao, Jianliang Wu

本文研究第三方移动代理（Agent）应用中的安全漏洞，重点关注基于视觉语言模型（VLM）的自动化手机交互代理。这些代理通过截图感知设备状态并依赖VLM推理执行动作，拥有高权限决策能力。与传统移动应用相比，代理与环境的交互方式引入了新的攻击面。作者总结了代理应用与普通应用在环境交互中的关键差异，分析了代理的安全姿态，并识别出两类独特攻击面：屏幕感知攻击面（利用人类与机器视觉之间的差异）和误用通道攻击面（拦截或操纵代理执行管线）。他们设计并实现了七种具体攻击，包括隐式文本注入、不可见像素区域利用、截图篡改以及主机PC命令注入等。在五个流行的移动代理框架上的评估表明，恶意应用可以在无需任何特权权限的情况下劫持代理动作并执行任意命令，同时保持对用户视觉上的不可见。这些发现揭示了自主代理设计中的根本信任错配，并强调了在多租户平台上需要感知感知安全模型的紧迫性。

💡 推荐理由: 揭示了移动VLM代理在设计上的根本信任缺陷，攻击者无需权限即可劫持高权限代理，威胁用户隐私和设备安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ruoqi Guo, Yi Liu, Gelei Deng, Yiheng Xiong, Yuekang Li, Ying Zhang, Leo Yu Zhang, Lida Zhao, Ji Jie, Yuxiao Lu

该论文提出了一种针对移动图形用户界面（GUI）代理的新型提示注入攻击方法，命名为MIRAGE（Mobile Injection of Realistic Adversarial GUI Examples）。移动GUI代理通常由视觉-语言模型（VLM）驱动，它们通过分析屏幕像素来感知界面，并基于所见内容选择操作，因此无法可靠地区分受信任的界面元素和用户生成的内容。MIRAGE利用这一弱点，在不修改代理、应用程序或操作系统的情况下，通过将攻击者控制的文本嵌入到普通的用户生成内容区域（如评论区、输入框等），将良性移动截图转化为提示注入样本。管道分为三个阶段：首先，定位器（Localizer）识别截图中的用户可控区域；其次，生成器（Generator）合成上下文相关的对抗性负载，并以应用程序的原生样式渲染到这些区域；最后，审查器（Curator）对生成样本的真实性进行过滤，并在不同应用、区域类型和攻击意图之间保持平衡。一个关键挑战是，注入后的截图必须在视觉上与真实的用户内容难以区分，同时仍能成功诱导代理执行恶意操作。通过在包含10个应用和11种攻击意图的1111个样本基准上测试，所有五种被评估的VLM代理均存在漏洞，攻击成功率在23%至30%之间。此外，与先前最先进的攻击方法相比，MIRAGE生成的截图在人类真实性评估中得分更高（满分为5分，MIRAGE得3.02，先前方法得2.52）。研究还发现，单个样本的真实性与攻击成功率之间不存在相关性，因此仅依靠视觉质量过滤无法可靠地防御此类威胁。该工作揭示了移动GUI代理面临的新型安全风险，并为后续防御研究提供了基础。

💡 推荐理由: 移动GUI代理（如智能助手、自动化测试工具）正快速普及，MIRAGE展示了一种隐蔽的提示注入攻击，威胁代理的可靠性和用户安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

大型语言模型（LLMs）和视觉语言模型（VLMs）在展现强大能力的同时，仍容易受到越狱攻击（jailbreaking attacks）的威胁，攻击者利用文本或视觉触发器绕过安全护栏。现有的防御方法通常依赖安全微调或外部过滤器来降低模型生成有害内容的概率，但这类方法往往带来显著的计算开销，并面临安全-效用权衡问题，即损害模型在良性任务上的表现。为了应对这些挑战，本文提出EVA（Editing for Versatile Alignment against Jailbreaks）框架，首次将直接模型编辑（direct model editing）应用于安全对齐。EVA将安全对齐重新定义为一种精确的知识修正任务：不是重新训练大量参数，而是识别并精准编辑那些导致模型易受有害指令影响的特定神经元，同时保持模型绝大多数参数不变。通过局部化更新，EVA有效中和有害行为，而不损害模型的通用推理能力。大量实验表明，EVA在LLMs和VLMs上均优于基线方法，在缓解越狱攻击方面提供了精确且高效的解决方案，适用于部署后的安全对齐。

💡 推荐理由: EVA提出了一种轻量级、非侵入式的安全对齐方法，通过模型编辑精准修复漏洞，避免传统微调的副作用，为LLM/VLM的部署后安全维护提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

本论文研究视觉语言模型（VLM）作为可信权威时面临的安全威胁。作者提出了一种新型攻击范式——AI权威洗钱（AI authority laundering）：攻击者通过对图像施加人眼几乎不可察觉的对抗性扰动，诱导VLM对错误的视觉输入产生自信且权威的回应。与越狱攻击或提示注入不同，该攻击不破坏模型的对齐（alignment），而是完全作用于感知层面，因此传统安全防护措施难以检测。作者利用公开可用的CLIP模型生成对抗性样本，成功迁移至多个商业生产级VLM，包括GPT-5.4、Claude Opus 4.6、Gemini 3和Grok 4.2。实验覆盖四个攻击面：放大错误信息、贬低个人、逃避内容审核以及操纵产品推荐。在身份操纵和NSFW（不适宜工作场所）内容规避的数百次攻击中，六种模型的成功率在22%至100%之间。值得注意的是，攻击并未使用新颖算法，而是采用十余年前已知的基本对抗性技术，这表明攻击者的能力下限已经足以构成实际威胁。作者认为，视觉对抗鲁棒性现在是一个实际且尚未解决的安全问题。该研究适合VLM开发者、安全工程师及AI政策制定者阅读。

💡 推荐理由: 揭示VLM在实际部署中因感知层攻击导致的权威滥用风险，可能被用于传播误导信息、操纵内容审核和产品推荐，而传统基于对齐的防御措施无效。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Mert D. Pese

本文系统研究了视觉语言模型（VLM）在自动驾驶场景中的对抗性迁移性。随着VLM在自动驾驶中的应用日益广泛，其结合视觉感知与语言推理的能力提升了可解释性，但物理世界对抗攻击的迁移性风险尚未被充分探索。本文针对三种代表性VLM架构（Dolphins、OmniDrive、LeapVAD），在十字路口和高速公路两种场景下，使用可物理实现的补丁攻击（放置于路边基础设施）进行跨架构迁移性评估。实验通过迁移矩阵评估，发现跨架构攻击具有高有效性：十字路口场景的迁移率为73-91%（平均0.815），高速公路场景为73-91%（平均0.833）。即使在补丁未针对目标模型优化的情况下，攻击在64.7-79.4%的关键决策窗口内仍能持续操控帧级输出。结果表明，攻击者无需知道目标车辆的具体模型，即可利用可迁移的物理补丁干扰VLM决策，对自动驾驶安全构成严重威胁。本研究首次量化了VLM在自动驾驶中的对抗迁移性，揭示了跨架构攻击的实际风险。

💡 推荐理由: 揭示了VLM在自动驾驶中的对抗迁移性风险，攻击者无需模型知识即可实施物理攻击，对自动驾驶安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#vlm

(A)I Sees What You Don't: Exploiting New Attack Surfaces in Third-Party Mobile Agents

MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content

EVA: Editing for Versatile Alignment against Jailbreaks

Laundering AI Authority with Adversarial Examples

Understanding Adversarial Transferability in Vision-Language Models for Autonomous Driving: A Cross-Architecture Analysis