#imagination-manifold 主题 - Cyber Security Daily Radar

👥 作者: Linghan Chen, Kaiyan Ji, Minyu Guo

本研究聚焦于视觉-语言-动作（VLA）策略中一种新型攻击面：世界-动作模型（WAM）的“可信想象”。许多现代VLA策略采用“先想象后行动”的设计：WAM首先生成一个短期未来潜在轨迹z~，然后动作基于该轨迹进行条件化。作者识别出该想象过程存在一种不对称性：破坏想象（即生成偏离自然流形的z~）相对容易，而精确控制想象（即到达指定的流形内目标）却困难。他们提出了一种基于能力的威胁模型，假设攻击者在L-无穷范数有界的观测扰动下，通过完全可微的观测-想象映射应用投影梯度下降（PGD）来破坏想象。研究发现，无目标破坏的强度大约是随机的60倍，且被AUC为1.0的无参数去噪器检测器完美检测；而目标控制仍然受限。自适应攻击者只有放弃破坏才能逃避检测。反应式策略对受损想象保持鲁棒，但原生的想象驱动型模型预测控制（MPC）首次出现针对特定对手的任务失败（在epsilon=0.01时，成功率从0.70降至0.05，Fisher p<10^-4）。论文在RynnVLA-002、LingBot-VA和LaDi-WM三个模型上进行了评估。主要贡献包括：揭示WAM想象过程作为暴露攻击面；提出非对称攻击和防御方法；实验证明攻击可导致下游安全门、视觉MPC规划器或“先想象后验证”验证器失效。

💡 推荐理由: 该研究首次揭示世界-动作模型的想象过程是一个易受攻击的暴露面，对依赖未来预测的安全门、MPC等下游组件构成威胁，对VLA策略的鲁棒性评估和防御设计具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#imagination-manifold

Attacking the Trusted Imagination: Oracle-Level Integrity Attacks on Imagine-then-Act World Models