#vlm

共收录 3 条相关安全情报。

← 返回所有主题
推荐 10.6
Conf: 50%
👥 作者: Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

大型语言模型(LLMs)和视觉语言模型(VLMs)在展现强大能力的同时,仍容易受到越狱攻击(jailbreaking attacks)的威胁,攻击者利用文本或视觉触发器绕过安全护栏。现有的防御方法通常依赖安全微调或外部过滤器来降低模型生成有害内容的概率,但这类方法往往带来显著的计算开销,并面临安全-效用权衡问题,即损害模型在良性任务上的表现。为了应对这些挑战,本文提出EVA(Editing for Versatile Alignment against Jailbreaks)框架,首次将直接模型编辑(direct model editing)应用于安全对齐。EVA将安全对齐重新定义为一种精确的知识修正任务:不是重新训练大量参数,而是识别并精准编辑那些导致模型易受有害指令影响的特定神经元,同时保持模型绝大多数参数不变。通过局部化更新,EVA有效中和有害行为,而不损害模型的通用推理能力。大量实验表明,EVA在LLMs和VLMs上均优于基线方法,在缓解越狱攻击方面提供了精确且高效的解决方案,适用于部署后的安全对齐。

💡 推荐理由: EVA提出了一种轻量级、非侵入式的安全对齐方法,通过模型编辑精准修复漏洞,避免传统微调的副作用,为LLM/VLM的部署后安全维护提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 3.5
Conf: 50%
👥 作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

本论文研究视觉语言模型(VLM)作为可信权威时面临的安全威胁。作者提出了一种新型攻击范式——AI权威洗钱(AI authority laundering):攻击者通过对图像施加人眼几乎不可察觉的对抗性扰动,诱导VLM对错误的视觉输入产生自信且权威的回应。与越狱攻击或提示注入不同,该攻击不破坏模型的对齐(alignment),而是完全作用于感知层面,因此传统安全防护措施难以检测。作者利用公开可用的CLIP模型生成对抗性样本,成功迁移至多个商业生产级VLM,包括GPT-5.4、Claude Opus 4.6、Gemini 3和Grok 4.2。实验覆盖四个攻击面:放大错误信息、贬低个人、逃避内容审核以及操纵产品推荐。在身份操纵和NSFW(不适宜工作场所)内容规避的数百次攻击中,六种模型的成功率在22%至100%之间。值得注意的是,攻击并未使用新颖算法,而是采用十余年前已知的基本对抗性技术,这表明攻击者的能力下限已经足以构成实际威胁。作者认为,视觉对抗鲁棒性现在是一个实际且尚未解决的安全问题。该研究适合VLM开发者、安全工程师及AI政策制定者阅读。

💡 推荐理由: 揭示VLM在实际部署中因感知层攻击导致的权威滥用风险,可能被用于传播误导信息、操纵内容审核和产品推荐,而传统基于对齐的防御措施无效。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Mert D. Pese

本文系统研究了视觉语言模型(VLM)在自动驾驶场景中的对抗性迁移性。随着VLM在自动驾驶中的应用日益广泛,其结合视觉感知与语言推理的能力提升了可解释性,但物理世界对抗攻击的迁移性风险尚未被充分探索。本文针对三种代表性VLM架构(Dolphins、OmniDrive、LeapVAD),在十字路口和高速公路两种场景下,使用可物理实现的补丁攻击(放置于路边基础设施)进行跨架构迁移性评估。实验通过迁移矩阵评估,发现跨架构攻击具有高有效性:十字路口场景的迁移率为73-91%(平均0.815),高速公路场景为73-91%(平均0.833)。即使在补丁未针对目标模型优化的情况下,攻击在64.7-79.4%的关键决策窗口内仍能持续操控帧级输出。结果表明,攻击者无需知道目标车辆的具体模型,即可利用可迁移的物理补丁干扰VLM决策,对自动驾驶安全构成严重威胁。本研究首次量化了VLM在自动驾驶中的对抗迁移性,揭示了跨架构攻击的实际风险。

💡 推荐理由: 揭示了VLM在自动驾驶中的对抗迁移性风险,攻击者无需模型知识即可实施物理攻击,对自动驾驶安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)