#imagination-manifold

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Linghan Chen, Kaiyan Ji, Minyu Guo

本研究聚焦于视觉-语言-动作(VLA)策略中一种新型攻击面:世界-动作模型(WAM)的“可信想象”。许多现代VLA策略采用“先想象后行动”的设计:WAM首先生成一个短期未来潜在轨迹z~,然后动作基于该轨迹进行条件化。作者识别出该想象过程存在一种不对称性:破坏想象(即生成偏离自然流形的z~)相对容易,而精确控制想象(即到达指定的流形内目标)却困难。他们提出了一种基于能力的威胁模型,假设攻击者在L-无穷范数有界的观测扰动下,通过完全可微的观测-想象映射应用投影梯度下降(PGD)来破坏想象。研究发现,无目标破坏的强度大约是随机的60倍,且被AUC为1.0的无参数去噪器检测器完美检测;而目标控制仍然受限。自适应攻击者只有放弃破坏才能逃避检测。反应式策略对受损想象保持鲁棒,但原生的想象驱动型模型预测控制(MPC)首次出现针对特定对手的任务失败(在epsilon=0.01时,成功率从0.70降至0.05,Fisher p<10^-4)。论文在RynnVLA-002、LingBot-VA和LaDi-WM三个模型上进行了评估。主要贡献包括:揭示WAM想象过程作为暴露攻击面;提出非对称攻击和防御方法;实验证明攻击可导致下游安全门、视觉MPC规划器或“先想象后验证”验证器失效。

💡 推荐理由: 该研究首次揭示世界-动作模型的想象过程是一个易受攻击的暴露面,对依赖未来预测的安全门、MPC等下游组件构成威胁,对VLA策略的鲁棒性评估和防御设计具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)