World Action Models Survey 阅读笔记

World Action Models: The Next Frontier in Embodied AI — Wang, Shi, Fu et al. (Fudan / NUS), 2026

2026-05-30 · 原文 · PDF

摘要

这篇综述首次系统地梳理了 World Action Models(WAMs,世界动作模型)这个新方向:如何把"预测世界变化"和"生成机器人动作"统一进一个模型。

当前主流的 VLA(Vision-Language-Action)模型只学"看到什么就做什么"的反射映射,不去想"做了这个动作后世界会怎样"。好比一个人闭着眼做饭:手在动,但不预判下一秒锅里发生什么。WAM 就是要补上这块:让模型既能预测未来状态,又能基于预测生成动作。

论文将现有方法整理成一棵分类树:Cascaded WAM(先预测、再出动作)和 Joint WAM(一个模型同时搞定),并从架构、数据、评估三个维度全面扫描。分类框架本身是论文最大的贡献,但论文也坦言:目前还没有公平的对比实验证明哪种架构更好。

一、Motivation

场景:机器人在厨房倒水

想象一个机器人在厨房里倒水。VLA 模型看到壶和杯子、收到"倒水"指令,直接输出关节角度。它不知道壶倾斜 30 度时水才开始流、不知道水到杯沿该停手、不知道壶拿歪了水会洒。它做的是模式匹配:训练时见过类似场景,就照搬动作。

常见任务上这能凑合,但换个场景就容易出错:杯子比训练时小一半?壶形状没见过?桌上多了个东西?VLA 内部没有"世界会怎么变"的模型,碰到偏差只能硬猜。

前人卡在哪

世界模型不是新东西。Dreamer 系列、PlaNet 在 RL 里早就能预测未来状态、在想象中做规划。问题是它们和动作策略各自为政:世界模型只管预测,不管动作;VLA 只管动作,不管预测。两条路的优势没有合流。

WAM 的切入点

WAM 就是要把两条路焊在一起:一个模型同时建模"世界会怎么变"和"该怎么动"。形式上就是联合建模 $p(o', a | o, l)$,给定当前观测 $o$ 和语言指令 $l$,同时预测下一步世界状态 $o'$ 和动作 $a$。而不是像 VLA 只管 $p(a | o, l)$,也不像世界模型只管 $p(o' | o, a)$。

二、现存问题

四、核心框架:WAM 的架构分类

这是论文最有价值的部分:按世界预测和动作生成的耦合方式,将所有 WAM 方法分成两大类、多个子类。

VLA vs WAM vs WM 概念对比

Figure 3:VLA、WAM、WM 的输入输出对比。VLA 只输出动作;WM 只预测未来状态;WAM 两者兼顾。

三个公式把区别说清楚了:

VLA 只管"给我看到的,输出要做的":

$$\mathcal{L}_{\text{VLA}} = \mathbb{E}_{(o,l,a) \sim \mathcal{D}} \left[ -\log p(a \mid o, l) \right]$$

损失 = 给定当前观测和语言指令,预测正确动作的负对数似然。只关心动作对不对,不关心世界会怎样变化。

World Model 只管"给我看到的和要做的,预测世界会怎样":

$$\mathcal{L}_{\text{WM}} = \mathbb{E}_{(o,a,o') \sim \mathcal{D}} \left[ -\log p(o' \mid o, a) \right]$$

损失 = 给定当前状态和动作,预测下一个状态的负对数似然。只关心状态预测地准不准,不直接生成动作。

WAM 两手都抓:

$$\mathcal{L}_{\text{WAM}} = \mathbb{E}_{(o,l,o',a) \sim \mathcal{D}} \left[ -\log p(o', a \mid o, l) \right]$$

损失 = 联合预测下一个世界状态和动作的负对数似然。模型必须同时理解"世界怎么变"和"该怎么做"。

WAM 分类树

Figure 1:WAM 的时间线与分类树。左侧是 Joint WAM(一体化),右侧是 Cascaded WAM(流水线)。

4.1 Cascaded WAM:先预测,再行动

思路直接:先用世界模型生成未来场景,再用另一个模型从中提取动作。两步走,各司其职。

Stage 1 世界模型预测 中间表征 Pixel RGB / Optical Flow Latent features Point clouds Depth + Normal Stage 2 动作解码 Action Source: Section 4.1 of the paper

按中间表征分两种:

显式规划(Pixel-space):世界模型直接生成未来 RGB 视频帧,然后用 Inverse Dynamics Model(IDM)或几何方法从视频里提取动作。代表工作是 UniPi,用 text-conditioned diffusion 模型生成任务执行视频,再用一个 CNN 逐帧回归动作。好处是直观,可以利用强大的视频生成预训练模型;坏处是生成视频很慢,而且"好看的视频"不一定能提取出"好用的动作"。后来的 AVDC、Im2Flow2Act 干脆跳过 RGB,用 optical flow 或 3D flow 做中间表征,绕过了"视频画质"和"动作可用性"之间的 gap。

隐式规划(Latent-space):不生成显式的视频帧,直接在 latent space 里预测未来状态,再从 latent 特征里解码动作。代表工作是 VPP,用 VAE 编码观测帧、用 diffusion 在 latent space 做单步预测、用轻量 policy network 从 latent 条件生成动作,推理速度可以做到实时。好处是快,坏处是不可解释,你看不到模型在"想象"什么。

4.2 Joint WAM:一个模型搞定一切

Joint WAM 用统一模型同时预测未来状态和生成动作。世界建模不是外部模块,而是推理过程的内在部分。

Joint WAM 架构分类

Figure 6:Diffusion-based Joint WAM 的四种架构模式。1(a) 统一 DiT 处理世界和动作;2(a-c) 多流设计通过不同耦合方式交换信息。

4.2.1 Autoregressive 路线

将世界状态和动作都 tokenize 成序列,用因果语言模型逐 token 生成。

4.2.2 Diffusion 路线

用 diffusion 或 flow matching 联合生成未来状态和动作,天然支持多步并行(一个未来 chunk 内的所有时间步在去噪中同时处理,不需要像自回归那样逐步串行生成),不受自回归的顺序瓶颈约束。

WAM 架构设计空间总览 WAM Cascaded WAM Explicit (Pixel) Implicit (Latent) UniPi, AVDC, Gen2Act TesserAct, Vidar, VAG VPP, Video Policy S-VAM, LAPA, OmniVTA Joint WAM Autoregressive Diffusion GR-1/2, CoT-VLA WorldVLA, VLA-JEPA Unified Stream Multi-Stream PAD, UWM, DreamZero DiT4DiT, CoVAR, Motus Fast-WAM, UVA, PhysGen Source: Section 4 taxonomy of the paper

WAM 架构设计空间:两大类、六条技术路线

五、数据生态与评估体系

5.1 四类训练数据

WAM 的数据需求独特:既要高质量 (观测, 动作, 下一步观测) 三元组学因果动力学,又要大量无标注视频学视觉先验。论文梳理了四类数据源的取舍:

WAM 训练数据全景:质量 vs 规模的取舍 扩展难度 →(便宜/海量 → 昂贵/稀缺) 迁移难度 →(容易 → 困难) 遥操作 OXE: 1M+ traj 高精度、22+ 机器人 UMI 数据 FastUMI-100K 手持采集、低成本 仿真 SynGrasp-1B: 10M traj 无限规模、有 gap 人类视频 HowTo100M: 136M clips 海量、无动作标注 Source: Figure 7 / Section 5 of the paper

关键发现:WAM 的独特优势在于统一消化多种数据,高质量三元组用于因果学习,无标注视频通过联合训练策略(如 UWM 的独立 noise schedule)也能消化吸收。传统 VLA 做不到这一点。

5.2 评估框架

评估分两个维度来看:

世界建模能力三层评估:

动作策略能力通过 40+ 个 benchmark 评估,覆盖桌面操作(LIBERO、RLBench)、双臂/人形(RoboTwin、BiGym)、移动操作(BEHAVIOR-1K)、柔性物体(SoftGym、TacSL)、真机评估(RoboArena、Maniparena、RoboChallenge)等。

论文指出核心缺陷:没有评估协议能同时衡量世界预测和动作执行的因果关系。两者分开评,可能出现"视频好看但动作没法用"的情况。

六、总结

核心贡献有三:(1)正式定义 WAM,与 VLA、World Model、Video Policy 划清边界;(2)建立清晰的分类树(Cascaded vs Joint、Autoregressive vs Diffusion、Unified vs Multi-Stream);(3)从数据和评估两个维度做系统扫描。

WAM 作为 VLA 的下一代范式被正式提出,从"看了就做"升级为"想了再做"。不过论文也留下几个硬问题:缺乏公平对比来判定 Joint 和 Cascaded 孰优;推理延迟远不及 50Hz 实时要求;多模态物理状态(触觉、力)预测几乎是空白。

七、Insight

这篇综述是分类学工作,思想火花不在新方法,在于这张地图让你看到一件事:"想象未来"的价值,可能不在于生成出来的视频,而在于生成过程中被迫习得的物理因果结构。

证据支撑这个判断:Fast-WAM 推理时丢掉视频分支只保留 world features,性能不降;FLARE 的 future tokens 学到了未来表征却从不输出视频;多个工作发现去掉 video co-training 后动作质量下降。换句话说,世界建模的训练梯度比推理输出更值钱:你需要"学过想象",但不必"每次都想象"。

八、Q&A

Q1:WAM 和普通 VLA 的本质区别是什么?不就是加了个 video prediction 的辅助 loss 吗?

不只是。一个模型加了 video prediction 辅助 loss 但推理时只输出 action,严格来说还是 VLA(比如 FLARE 处于边界上)。WAM 的定义要求模型必须满足两个条件:(1) 有 forward predictive modeling,即生成未来状态的可量化表征(不管是 pixel 还是 latent);(2) 动作生成必须和这个预测耦合,动作不是独立输出的,而是基于或对齐于预测的未来。所以本质区别不在 loss 形式,而在于世界预测是否参与了动作的推理过程。

Q2:Cascaded WAM 和 Joint WAM,到底哪个更好?

论文明确说了:不知道。目前没有一个公平的 apple-to-apple 实验在相同数据、相同规模、相同评测协议下比较两者。理论上 Cascaded 有更好的可解释性(你能看到中间生成的视频来 debug),Joint 有更紧的信息流(不会在中间传递时丢信息)。但"更紧的信息流"是否真的转化为"更好的动作",还没有实验证据。这是论文指出的最大 open question 之一。

Q3:UWM 的"独立 noise schedule"为什么是个聪明的设计?

UWM 给世界预测和动作生成各自一个独立可控的噪声水平。推理时你可以:把动作侧设为全噪声 → 纯世界模型模式;把世界侧设为全噪声 → 纯策略模式;两边都正常 → WAM 模式;把世界侧设为零噪声、动作侧正常 → 逆动力学模型模式。一个 checkpoint 四种用法,不需要改任何架构。这个设计还优雅地解决了数据问题:对于没有动作标注的视频,把 action 侧设为全噪声就行了,denoising objective 自动退化成纯 video prediction loss。

Q4:为什么"好看的生成视频"不一定能提取出"好用的动作"?

这是 Cascaded WAM 的一个核心难题。视频生成模型优化的是视觉保真度(FVD、LPIPS 等),这些指标关心的是"像不像"。但 IDM 从视频提取动作需要的是"精确的 end-effector 位移信息",差 1 个像素可能意味着抓取偏了 1 厘米。一段视觉上很流畅自然的视频,可能在子像素级的精度上完全不满足动作提取的需求。"Wow, wo, val!"(论文名) 这篇工作就实验证明了:多数 SOTA 视频生成模型在 IDM Turing Test 上接近零成功率。

Q5:WAM 目前能做到实时控制吗?

很勉强。论文提到 DreamZero 通过一系列系统级优化(异步执行、DiT caching、量化、CUDA graph compilation)把 joint diffusion WAM 的推理速度推到了约 7Hz。这对一些不需要超高频控制的任务勉强够用,但离 non-generative VLA 政策的 50Hz 标准差了一个数量级。Cascaded WAM 更慢,需要先走完整个 video generation 再走 IDM。论文也提出了一个更深的问题:也许应该追求的不是"让预测更快",而是"找到每个任务真正需要的最小预测精度",即 task-adaptive predictive fidelity。

Q6:这篇综述覆盖了多少工作?有没有明显的遗漏?

论文引用了 366 篇文献,覆盖了从 2018 年到 2026 年 5 月的工作。覆盖面非常广,但有一个明显的倾角:主要聚焦于 manipulation(桌面操作和双臂),locomotion(移动控制)方向的 WAM 讨论较少,尽管 humanoid locomotion 也有世界建模的需求。另外,论文对各方法的实验数字几乎没有横向对比(没有统一的 benchmark 表格),更多是"方法描述 + 定性分析",这和"没有公平对比实验"的开放问题是一致的。

Q7:如果要从零开始做一个 WAM,选什么 backbone 和架构最合理?

从论文的 Table 3 可以看到趋势:(1) backbone 上,Wan 2.x 系列和 Cosmos-Predict2 是最常被选用的视频生成 backbone,因为它们有强大的预训练视觉先验;(2) 架构上,Multi-Stream Cross-Attention Coupled(如 LDA-1B 那种)是目前最灵活的选择,可以独立控制世界和动作分支的规模、冻结策略、数据混合比例。(3) 参数规模从 0.5B 到 14B 不等,但 2-5B 是甜点区。(4) 如果算力有限且追求实时性,考虑 Fast-WAM 那种"训练时有世界建模、推理时只用 world features"的设计,几乎是免费午餐。