#vision-language

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Jiamin Chang, Salil Kanhere, Piotr Koniusz, Jason, Xue, Hammond Pearce

本文研究视觉-语言智能体系统(VLAS)中的后门攻击问题。VLAS将视觉感知与规划、工具使用和物理动作相连接,因此后门触发器可以通过决策管线及其连接的接口传播,使视觉后门成为系统级威胁。当前评估仅关注干净准确率和攻击成功率(ASR),这些指标只衡量触发器是否有效,但无法判断攻击是否“精确”——即是否仅在预期条件下触发隐藏行为。本文形式化了触发器不精确的失败为“触发器泄露”:视觉或语义上与预期触发器相近的输入,无意中激活了攻击者指定的行为。为量化泄露,作者提出邻域泄露率(NLR)。实验表明,在3%的投毒比例下,图标和文本触发器对常见视觉变换保持鲁棒,但其邻近变体泄露严重,NLR分别达到0.996(图标)和0.944(文本)。使用文本触发器作为受控探针,结果表明标准微调学习到一个较宽的激活区域而非精确触发条件,导致即使是稍有不同的邻近字符串也会调用恶意行为。通过加入编辑距离为1的硬负样本进行训练,可以显著缩小激活区域并减少泄露,在图像编辑和具身操作工作流中,泄露的触发器可能传播到可执行程序和动作序列。本研究的贡献在于正式定义了触发泄露问题,提出了NLR指标,并展示了通过硬负样本训练来缓解泄露的方法。适合对AI安全、后门攻击防御感兴趣的学术界和工业界研究人员阅读。

💡 推荐理由: 后门攻击在VLAS中的精确性问题常被忽视,本工作揭示了标准评估指标的盲区,并提出NLR新指标,为提升智能体系统安全性提供了新视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu

本文针对视觉-语言预训练(VLP)模型的对抗可迁移性问题展开研究。现有基于迁移的黑盒攻击方法通常严重依赖替代模型,导致对抗样本在替代模型上有效,但在未知目标模型上效果不佳。作者将此归因于对抗优化过程中替代模型特定的偏差(surrogate-specific bias),即更新方向更多地响应替代模型的特性而非输入语义。为纠正这一偏差,提出 DeBias-Attack 方法。该方法维护两个扰动分支:主分支在原始图像上优化扰动,获取破坏图像-文本对齐的对抗梯度;参考分支在弱语义图像上优化扰动,该弱语义图像由数据集平均图像加上每轮重新采样的小高斯噪声构成,由于缺乏清晰视觉内容,其优化过程更能反映替代模型的响应,从而估计出替代特定偏差。通过从主梯度中移除其在参考梯度上的对齐投影,再结合上下文感知文本替换更新对抗图像,实现偏差纠正。实验在多种 VLP 模型(如 ALBEF、BLIP)、下游任务(图像检索、图像描述)以及开源和闭源多模态大语言模型上验证了该方法的优越性能。本文首次将梯度校正引入 VLP 迁移攻击,为黑盒攻防研究提供了新视角。

💡 推荐理由: 本研究揭示了VLP模型对抗迁移性瓶颈的根源——替代特定偏差,并提出有效纠正方法,为设计更鲁棒的视觉-语言模型及防御策略提供关键参考。

🎯 建议动作: 研究跟进,评估该方法对内部VLP模型的影响,并探索相应的防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)