#vision-language-models 主题 - Cyber Security Daily Radar

👥 作者: Sudharshan Balaji, Yili Ren, Guangjing Wang, Yimin Chen, Ning Wang

该论文首次系统研究了视觉-语言模型（VLM）中遗忘（unlearning）的跨模态迁移问题。现有机器学习遗忘技术主要用于移除大型语言模型中的危险知识，但VLM同时处理文本和视觉输入，遗忘在一个模态中是否会自动迁移到另一个模态是一个关键安全问题。作者在三种主流VLM架构上进行了双向迁移实验：LLaVA-1.5（MLP投影）、InstructBLIP（Q-Former）和IDEFICS（门控交叉注意力）。实验发现遗忘确实会在模态间迁移，但迁移是不对称且不完整的。例如，文本遗忘可以强烈迁移到视觉输入，但这种鲁棒性在排版攻击（typographic attacks）下被破坏，之前遗忘的知识可以轻易恢复，表明存在浅层遗忘。为了解决迁移差距和浅层鲁棒性问题，作者提出了CrossInf，一种基于影响力引导的缓解策略。该方法基于观察：不同模型组件对跨模态迁移的贡献不同，因此将遗忘聚焦于对跨模态泛化影响最大的Transformer块。CrossInf在强融合架构中将迁移差距减少一半以上，同时保持模型效用，并将排版攻击的成功率降至接近零。作者还通过三位标注者的众包评估（κ=0.77）验证了发现，并使用 centered kernel alignment（CKA）分析了浅层遗忘，为观测到的迁移行为和鲁棒性限制提供了见解。

💡 推荐理由: 该研究揭示了VLM遗忘机制的安全漏洞：跨模态迁移不彻底且易被排版攻击绕过，可能导致敏感知识意外恢复。对使用多模态模型的组织有重要安全启示。

🎯 建议动作: 关注后续研究进展，评估自身VLM部署的遗忘机制鲁棒性

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhihao Dou, Qinjian Zhao, Zhiqiang Gao, Sumon Biswas

该论文提出了一种针对视觉语言模型（VLM）的新型后门攻击框架ReShift，其核心创新在于实现推理层面的后门注入，而非传统的输出层操纵。现有后门攻击方法往往在推理链中留下不一致或可检测的痕迹，容易被现有防御机制发现。ReShift通过“顿悟时刻”（aha-moment）驱动的方式，在模型内部思维链（CoT）过程中引导推理轨迹发生偏移，同时保持表面上的逻辑连贯性。框架包含两个关键组件：毒化推理感知数据构建（PRDC）管道，用于生成带有触发条件且推理过程异常的样本；以及监督-强化联合优化（SRJO）策略，用于稳定地诱导触发条件下的推理偏移。论文进一步形式化了“熵反弹”（Entropy Rebound）作为推理重定向的特征信号，并给出一系列理论保证，说明熵缺口与轨迹级差异之间的关系。实验表明，ReShift能够在保持干净任务性能和生成合理推理轨迹的前提下实现高攻击成功率，显著提升对抗现有防御的隐蔽性。该研究揭示了VLM在推理层面存在的安全脆弱性，对构建可信赖的多模态AI系统提出了新挑战。适合AI安全研究员、模型开发人员和防御团队阅读。

💡 推荐理由: 该攻击揭示了VLM推理层面的脆弱性，现有防御难以检测此类隐蔽后门，威胁到安全关键场景中VLM的可信性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Junran Wang, Xinjie Shen, Zehao Jin, Pan Li

随着视觉-语言模型（VLM）被越来越多地部署为具身助手的自主认知核心，评估其在物理环境中的隐私意识变得至关重要。与数字聊天机器人不同，这些智能体在家庭、医院等私密空间运行，能够观察并操作包含隐私敏感信息与物品的物理实体。然而，现有基准仍局限于单模态、基于文本的表达，无法捕捉真实世界的复杂性。为弥补这一空白，本文提出了 ImmersedPrivacy，一种交互式视听评估框架，基于 Unity 模拟器构建逼真的物理环境。ImmersedPrivacy 通过三个递进层级测试模型的物理隐私意识：第一层级评估在杂乱场景中识别敏感物品的能力；第二层级测试适应社会语境变化（如陌生人进入房间）的能力；第三层级考察解决显式命令与隐含隐私约束之间冲突的能力。作者对 12 个当前最先进的 VLM 进行了评估，发现了一致的缺陷。在杂乱场景中，所有模型的性能随场景复杂度增加而单调下降，表明存在感知缺陷。当社会情境改变时，没有模型的选择准确率超过 65%。在冲突命令下，表现最好的模型 gemini-3.1-pro 也仅在 51% 的案例中完美平衡了任务完成与隐私保护。这些发现揭示了当前 VLM 在物理世界中存在感知脆弱性，并且无法让隐私知识主导其情境化行为。代码和数据已开源。

💡 推荐理由: 该研究首次系统评估了 VLM 在物理世界中的隐私意识，揭示了当前模型在杂乱场景、社会情境变化及命令冲突下的严重缺陷，对部署具身 AI 在家庭、医疗等私密空间的安全风险具有重要警示意义。

🎯 建议动作: 研究跟进，建议安全团队关注 VLM 在物理环境中的隐私风险，将其纳入内部评估流程。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#vision-language-models

One Modality to Forget Them All: Enhancing Cross-Modal Unlearning in Vision-Language Models

ReShift: Aha-Moment-Driven Reasoning-Level Backdoor Attacks on Vision-Language Models

How Far Are VLMs from Privacy Awareness in the Physical World? An Empirical Study