DreamZero 阅读笔记

World Action Models are Zero-shot Policies — Seonghyeon Ye et al. (NVIDIA), 2026

2026-06-02 · 原文 · PDF

摘要

DreamZero 是目前规模最大的 WAM(World Action Model):14B 参数,建在预训练视频扩散模型 Wan2.1-I2V-14B 上。它的标题 "World Action Models are Zero-shot Policies" 就是核心论点:如果模型真正理解了物理世界的变化规律,它天然就能执行从未见过的任务,不需要这个任务的任何示范。

DreamZero 在 AgiBot G1 真实机器人上验证了这个论点:已见任务平均任务进度 62.2%,是最强预训练 VLA(GR00T N1.6 Pretrained, 27.4%)的两倍多。更惊人的是,未见任务(解鞋带、熨衣服等训练数据中完全不存在的动作)也达到了 39.5%,而所有 VLA 全部接近 0%。推理端则通过一套从系统级到模型级的优化,把 14B 模型的延迟从 5.7 秒压到 150ms,实现 7Hz 闭环控制。还有个意想不到的发现:只用 30 分钟另一个机器人的随意玩耍数据,就能把整个策略迁移到新平台,同时保留零样本泛化能力。

一、Motivation

VLA 模型(RT-2、$\pi_0$、GR00T N1.6)擅长"语义泛化"。你说"把可乐移到 Taylor Swift 旁边",它能理解语义找到目标,因为它从大语言模型继承了语言-视觉的对应知识。但让它做一个训练数据里没有的物理动作,比如"解鞋带",它就彻底失败了。原因是 VLM 的预训练数据是静态图文对,没有时序动力学信息。模型知道"鞋带是什么",但不知道"拉开鞋带的绳结需要什么手指动作"。

另一方面,视频扩散模型在互联网级视频数据上训练,已经学到了极其丰富的物理规律:物体掉落、液体流动、手指操作物体,这些都以"未来帧预测"的形式编码在模型权重里。如果能把这种"视频中的物理直觉"转化为机器人策略,就可能跳过 VLA 对大量重复示范的依赖。

DreamZero 的策略很直接:拿一个 14B 的预训练视频扩散模型做 backbone,只加少量的状态编码器和动作解码器,用联合视频-动作目标训练。backbone 已经懂物理,模型只需额外学"怎么从视频预测里提取该做的动作"。关键赌注在于数据的多样性比重复性更重要:500 小时涵盖 42 种技能、22 个环境的异构数据,比数千小时同一任务的重复示范更有价值。

二、现存问题

四、方法详解

DreamZero architecture

Figure 4:DreamZero 架构。左:训练时联合 flow matching 去噪视频 latent 和动作。右:推理时异步执行,KV cache 中的预测帧被真实观测替换。

4.1 问题分解

DreamZero 把联合预测分解为两部分,但用一个端到端模型同时实现:

$$\pi_\theta(\mathbf{o}_{l:l+H}, \mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l) = \underbrace{\pi_\theta(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l)}_{\text{video prediction}} \; \underbrace{\pi_\theta(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l)}_{\text{IDM}}$$
联合分布 = 自回归视频预测 $\times$ 逆动力学模型。$\mathbf{o}$ 是观测帧,$\mathbf{a}$ 是动作,$\mathbf{c}$ 是语言指令,$\mathbf{q}_l$ 是本体感知状态。但这不是真的分两步——一个模型通过 shared DiT 同时输出两者。

4.2 为什么选自回归

三个实用原因让 DreamZero 选了自回归而非 UWM 的双向扩散:

4.3 Flow Matching + Teacher Forcing

训练用 flow matching(而非 DDPM),预测从噪声到数据的"速度场"。所有帧按 chunk 处理,每个 chunk $k$ 内的帧共享同一个时间步 $t_k$,但不同 chunk 的时间步独立采样:

$$\mathcal{L}(\theta) = \mathbb{E}\left[\frac{1}{K}\sum_{k=1}^{K} w(t_k) \|\mathbf{u}_\theta([\mathbf{z}_{t_k}^k, \mathbf{a}_{t_k}^k]; \mathcal{C}_k, \mathbf{c}, \mathbf{q}_k, t_k) - \mathbf{v}^k\|^2\right]$$
对每个 chunk $k$,模型预测速度场 $\mathbf{v}^k$(数据减去噪声的方向),用 teacher forcing 训练——每个 chunk 的条件上下文 $\mathcal{C}_k$ 用的是干净的前序 chunk,不是自己的预测。$w(t_k)$ 是时间步相关的权重函数。

4.4 推理:38 倍加速

DreamZero-Flash noise schedules

Figure 5:DreamZero(蓝色)视频和动作共享均匀噪声。DreamZero-Flash(红色)把视频噪声偏向高噪声(Beta(7,1)),动作保持均匀。

朴素实现 5.7 秒/chunk,经过四级优化:

DreamZero 推理加速路线 (GB200) Baseline 1.1x (5.7s) + CFG 并行 (2 GPU) 1.8x + DiT Caching 5.4x + Compile + CUDA 14.8x + NVFP4 量化 16.6x + Flash (1-step) 38x (~150ms) Source: Table 1 of the paper

DreamZero-Flash 是最关键的模型级优化。标准 DreamZero 训练时视频和动作共享均匀时间步 $t_k \sim \mathcal{U}(0,1)$,但推理时如果只跑 1-4 步去噪,视频还很模糊,从模糊视频里提取的动作就不准。Flash 的解法是:训练时把视频时间步偏向高噪声($t_k^{\text{video}} = 1 - \eta$, $\eta \sim \text{Beta}(7,1)$, 均值 0.875),动作时间步保持均匀。这样模型大量练习了"从几乎全噪声的视频里提取干净动作",推理时 1 步就够了,延迟从 350ms 降到 150ms。

4.5 数据策略:多样性 > 重复性

DreamZero 在 AgiBot G1 上收集了约 500 小时遥操作数据,覆盖 22 个环境(家庭、餐厅、超市、咖啡店、办公室)和 42 种技能。每集平均 4.4 分钟,比典型操作数据集(30 秒/集)长得多。策略不是追求每个任务重复做几十次,而是追求场景和技能的广度。

五、实验结果

5.1 已见任务:新环境新物体

Seen task evaluation

Figure 8:已见任务评估。DreamZero(红色)在所有类别上超过 VLA。从零训练的 VLA 几乎全 0%。

在 AgiBot G1 上,DreamZero 已见任务平均 62.2% 任务进度,最强预训练 VLA(GR00T N1.6 Pretrained)只有 27.4%。从零训练的 VLA(GR00T/pi0.5 Scratch)全部接近 0%。在 DROID-Franka 上也类似:DreamZero 75% 成功率 vs GR00T 49%。

5.2 未见任务:零样本泛化

Unseen task generalization

Figure 9:未见任务零样本泛化。DreamZero 在完全不在训练数据中的任务上达到 39.5%,VLA 全部接近 0%。

10 个完全不在训练数据中的任务(解鞋带、熨衣服、画画、拉车等),DreamZero 平均 39.5%。个别任务表现惊人:摘帽子 85.7%、握手 59.2%、折叠地图 50%。所有 VLA baseline(包括在数千小时跨平台数据上预训练的版本)全部接近 0%。

AgiBot G1 未见任务平均任务进度 GR00T (Scratch) ~0% $\pi_{0.5}$ (Scratch) ~0% GR00T (Pretrained) 16.3% DreamZero 39.5% 2.4x vs best VLA Source: Figure 9 / AgiBot G1 unseen tasks average

5.3 跨具身迁移

两种迁移方式,都只用纯视频(无动作标注):

5.4 少样本具身适配

在 AgiBot G1 上预训练的模型,只用 YAM 机器人 30 分钟的随意 play data(55 条轨迹,11 个任务)就能适配到 YAM 平台,同时保持在 pick-and-place 变体上的零样本语言跟随能力。

5.5 后训练

在任务特定数据上微调后,DreamZero 在衬衫折叠(92.5%)、水果打包(96%)、收拾餐桌(83%)上达到平均 90.5% 任务进度,匹配或超过在数千小时跨平台数据上预训练的 VLA。

六、总结

DreamZero 证明了三件事:(1)视频扩散模型的物理先验可以直接转化为零样本机器人策略;(2)数据的多样性比重复性更重要,500 小时异构数据打败了数千小时重复示范;(3)14B 模型通过系统级优化可以做到 7Hz 实时控制。

留下的问题:7Hz 对高频任务仍不够,只验证了操作任务、没测记忆依赖任务,数据收集虽然减少了重复但 500 小时仍非小数目。

七、Insight

数据多样性 > 数据重复性,这可能是 WAM 相对 VLA 最根本的范式差异。

DreamZero 的数据策略颠覆了机器人学习的常规做法。传统 VLA 需要反复演示同一个任务来学会精确的观测→动作映射,因为这个映射高度非线性且场景特定。但 WAM 学的是"世界怎么变",多样的场景比重复的动作更有价值,因为物理规律是跨场景通用的。500 小时 × 42 种技能 × 22 个环境的异构数据,让模型建立了一个通用的物理世界模型,而非一组任务特定的反射弧。这个洞察意味着数据收集策略需要根本性改变:停止对每个任务做 50 次相同的遥操作,转而用同样的时间覆盖尽可能多的场景和技能变体。

八、关键引用

[Abstract] "Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves."


和 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,把视频当作"世界如何演变"的稠密表征。

[Section 4.1] "We hypothesize that learning to only predict actions without encoding the knowledge about future world states makes it challenging to leverage highly heterogeneous, non-repetitive data effectively."


我们认为只学预测动作、不编码关于未来世界状态的知识,会让模型很难有效利用高度异构的非重复性数据。

[Section 5.1] "Most DreamZero failures stem from video generation errors rather than action prediction—the policy faithfully executes whatever trajectory the video predicts."


DreamZero 的大多数失败来自视频生成错误而非动作提取——策略忠实地执行了视频预测的轨迹。提升视频质量就等于提升策略性能。

[Section 3.2.5] "DreamZero-Flash closes this gap by biasing video timesteps toward high-noise states... training the model to predict clean actions from noisy visual context."


Flash 把视频时间步偏向高噪声,训练模型从噪声视频中提取干净动作,直接匹配 1-step 推理的场景。

九、Q&A

Q1:DreamZero 为什么选自回归而非 UWM 的双向扩散?

三个原因:(1)KV cache 加速,已处理的帧不重算;(2)保持原生帧率,双向需要固定长度输入会导致帧率下采样;(3)闭环控制时用真实观测替换 KV cache 中的预测帧,消除误差累积。代价是无法像 UWM 那样灵活切换推理模式(策略/世界模型/逆动力学),DreamZero 只有联合模式。

Q2:DreamZero-Flash 怎么实现 1-step 推理?

标准训练时视频和动作共享均匀时间步,模型学会在"同等噪声"下预测。但 1-step 推理时视频几乎全噪声,动作却要求干净输出。Flash 把视频时间步偏向 Beta(7,1)(均值 0.875,多数时候接近全噪声),动作保持均匀。训练时模型大量练习了"从高噪声视频提取干净动作"的场景,推理时 1 步就足够。

Q3:为什么从零训练的 VLA 在新环境下全部失败?

VLA 学的是 observation→action 的直接映射,这个映射高度依赖场景特征(光照、桌面纹理、物体外观),换环境后视觉分布变了映射就失效。DreamZero 通过预测未来视频来理解物理规律,这种理解是场景无关的(杯子在任何桌子上被推都会滑),所以对新环境更鲁棒。

Q4:30 分钟 play data 适配新机器人,具体做了什么?

在 AgiBot G1 上预训练好的 DreamZero,用 YAM 机器人上的 55 条随意玩耍轨迹(约 30 分钟,不需要特定任务)做 post-training,只更新状态编码器和动作解码器,让它学会新平台的运动学映射。世界理解完整保留,因为物理规律是跨平台共享的。play data 不需要特定技能,收集成本极低。

Q5:DreamZero 的失败模式是什么?

论文明确指出,大多数失败来自视频预测错误,不是动作提取错误。策略忠实地执行视频预测的轨迹,如果视频预测的手指运动路径不对,动作也跟着错。这意味着两件事:(1)提升视频生成质量会直接提升策略性能,改进方向很清晰;(2)模型的瓶颈不在"理解该做什么动作",而在"想象未来世界的精确度"。

Q6:500 小时数据的多样性具体是什么样的?

22 个环境(家庭、餐厅、超市、咖啡店、办公室等),42 种技能(导航、身体调整、开门/关门、抓取/放置等),7200+ 集、每集平均 4.4 分钟。关键区别在于"每种技能只做少量变体"而非"每种技能做大量重复"。这和 DROID(2800 集但场景多样性高)的思路类似,但规模更大。

Q7:7Hz 够用吗?

对桌面操作基本够用。DreamZero 的 action chunk 是 48 步 @30Hz(1.6 秒),异步执行让机器人在推理期间持续运动。但对需要快速反应的灵巧操作(如接球、翻转细小物体)还远远不够。传统非生成式 VLA 可达 50Hz+。Flash 优化依赖 GB200 GPU——不是所有部署环境都有。

Q8:DreamZero 和 Cosmos Policy 的关键区别?

规模和理念不同。DreamZero 是 14B 自回归模型,强调零样本泛化和跨具身迁移,用 flow matching 训练;Cosmos Policy 是 2B 双向模型,强调数据效率(50 条示范就能用)和 model-based planning(采样多个候选动作用 value function 打分)。DreamZero 用规模换泛化,Cosmos Policy 用 planning 换精度,走的是 WAM 的不同路线。