DreamZero 阅读笔记

World Action Models are Zero-shot Policies — Seonghyeon Ye et al. (NVIDIA), 2026

2026-06-02 · 原文 · PDF

摘要

DreamZero 是目前规模最大的 WAM（World Action Model）：14B 参数，建在预训练视频扩散模型 Wan2.1-I2V-14B 上。它的标题 "World Action Models are Zero-shot Policies" 就是核心论点：如果模型真正理解了物理世界的变化规律，它天然就能执行从未见过的任务，不需要这个任务的任何示范。

DreamZero 在 AgiBot G1 真实机器人上验证了这个论点：已见任务平均任务进度 62.2%，是最强预训练 VLA（GR00T N1.6 Pretrained, 27.4%）的两倍多。更惊人的是，未见任务（解鞋带、熨衣服等训练数据中完全不存在的动作）也达到了 39.5%，而所有 VLA 全部接近 0%。推理端则通过一套从系统级到模型级的优化，把 14B 模型的延迟从 5.7 秒压到 150ms，实现 7Hz 闭环控制。还有个意想不到的发现：只用 30 分钟另一个机器人的随意玩耍数据，就能把整个策略迁移到新平台，同时保留零样本泛化能力。

一、Motivation

VLA 模型（RT-2、$\pi_0$、GR00T N1.6）擅长"语义泛化"。你说"把可乐移到 Taylor Swift 旁边"，它能理解语义找到目标，因为它从大语言模型继承了语言-视觉的对应知识。但让它做一个训练数据里没有的物理动作，比如"解鞋带"，它就彻底失败了。原因是 VLM 的预训练数据是静态图文对，没有时序动力学信息。模型知道"鞋带是什么"，但不知道"拉开鞋带的绳结需要什么手指动作"。

另一方面，视频扩散模型在互联网级视频数据上训练，已经学到了极其丰富的物理规律：物体掉落、液体流动、手指操作物体，这些都以"未来帧预测"的形式编码在模型权重里。如果能把这种"视频中的物理直觉"转化为机器人策略，就可能跳过 VLA 对大量重复示范的依赖。

DreamZero 的策略很直接：拿一个 14B 的预训练视频扩散模型做 backbone，只加少量的状态编码器和动作解码器，用联合视频-动作目标训练。backbone 已经懂物理，模型只需额外学"怎么从视频预测里提取该做的动作"。关键赌注在于数据的多样性比重复性更重要：500 小时涵盖 42 种技能、22 个环境的异构数据，比数千小时同一任务的重复示范更有价值。

二、现存问题

VLA 的物理泛化缺陷：VLA 预训练在静态图文上，缺乏时空动力学理解，从零训练的 VLA 在新环境下几乎 0% 任务进度。
重复示范依赖：现有通才策略（如 $\pi_{0.5}$）需要数千小时的跨平台重复示范来建立泛化，收集成本极高。
WAM 推理速度：视频扩散模型需要迭代去噪。14B 参数模型朴素实现需要 5.7 秒/action chunk，完全无法实时控制。
视频-动作对齐：双向扩散（如 UWM）需要固定长度输入，会下采样视频帧率导致视频-动作时序失配。自回归架构可以避免这个问题但引入了 KV cache 管理的复杂性。
误差累积：自回归视频预测每一步都可能偏离真实，多步后完全失真。需要某种机制在闭环中纠正。

四、方法详解

Figure 4：DreamZero 架构。左：训练时联合 flow matching 去噪视频 latent 和动作。右：推理时异步执行，KV cache 中的预测帧被真实观测替换。

4.1 问题分解

DreamZero 把联合预测分解为两部分，但用一个端到端模型同时实现：

$$\pi_\theta(\mathbf{o}_{l:l+H}, \mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l) = \underbrace{\pi_\theta(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l)}_{\text{video prediction}} \; \underbrace{\pi_\theta(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l)}_{\text{IDM}}$$

联合分布 = 自回归视频预测 $\times$ 逆动力学模型。$\mathbf{o}$ 是观测帧，$\mathbf{a}$ 是动作，$\mathbf{c}$ 是语言指令，$\mathbf{q}_l$ 是本体感知状态。但这不是真的分两步——一个模型通过 shared DiT 同时输出两者。

4.2 为什么选自回归

三个实用原因让 DreamZero 选了自回归而非 UWM 的双向扩散：

KV cache 加速：已处理过的帧不需要重新计算。
保持原生帧率：双向扩散需要固定长度输入，不得不下采样帧率，破坏视频-动作的时序对齐。自回归则天然支持可变长度上下文。
闭环纠错：每执行完一个 action chunk，把 KV cache 里的预测帧替换为真实观测，直接消除自回归的误差累积。这是相对纯视频生成的关键改进。

4.3 Flow Matching + Teacher Forcing

训练用 flow matching（而非 DDPM），预测从噪声到数据的"速度场"。所有帧按 chunk 处理，每个 chunk $k$ 内的帧共享同一个时间步 $t_k$，但不同 chunk 的时间步独立采样：

$$\mathcal{L}(\theta) = \mathbb{E}\left[\frac{1}{K}\sum_{k=1}^{K} w(t_k) \|\mathbf{u}_\theta([\mathbf{z}_{t_k}^k, \mathbf{a}_{t_k}^k]; \mathcal{C}_k, \mathbf{c}, \mathbf{q}_k, t_k) - \mathbf{v}^k\|^2\right]$$

对每个 chunk $k$，模型预测速度场 $\mathbf{v}^k$（数据减去噪声的方向），用 teacher forcing 训练——每个 chunk 的条件上下文 $\mathcal{C}_k$ 用的是干净的前序 chunk，不是自己的预测。$w(t_k)$ 是时间步相关的权重函数。

4.4 推理：38 倍加速

Figure 5：DreamZero（蓝色）视频和动作共享均匀噪声。DreamZero-Flash（红色）把视频噪声偏向高噪声（Beta(7,1)），动作保持均匀。

朴素实现 5.7 秒/chunk，经过四级优化：

DreamZero-Flash 是最关键的模型级优化。标准 DreamZero 训练时视频和动作共享均匀时间步 $t_k \sim \mathcal{U}(0,1)$，但推理时如果只跑 1-4 步去噪，视频还很模糊，从模糊视频里提取的动作就不准。Flash 的解法是：训练时把视频时间步偏向高噪声（$t_k^{\text{video}} = 1 - \eta$, $\eta \sim \text{Beta}(7,1)$, 均值 0.875），动作时间步保持均匀。这样模型大量练习了"从几乎全噪声的视频里提取干净动作"，推理时 1 步就够了，延迟从 350ms 降到 150ms。

4.5 数据策略：多样性 > 重复性

DreamZero 在 AgiBot G1 上收集了约 500 小时遥操作数据，覆盖 22 个环境（家庭、餐厅、超市、咖啡店、办公室）和 42 种技能。每集平均 4.4 分钟，比典型操作数据集（30 秒/集）长得多。策略不是追求每个任务重复做几十次，而是追求场景和技能的广度。

五、实验结果

5.1 已见任务：新环境新物体

Figure 8：已见任务评估。DreamZero（红色）在所有类别上超过 VLA。从零训练的 VLA 几乎全 0%。

在 AgiBot G1 上，DreamZero 已见任务平均 62.2% 任务进度，最强预训练 VLA（GR00T N1.6 Pretrained）只有 27.4%。从零训练的 VLA（GR00T/pi0.5 Scratch）全部接近 0%。在 DROID-Franka 上也类似：DreamZero 75% 成功率 vs GR00T 49%。

5.2 未见任务：零样本泛化

Figure 9：未见任务零样本泛化。DreamZero 在完全不在训练数据中的任务上达到 39.5%，VLA 全部接近 0%。

10 个完全不在训练数据中的任务（解鞋带、熨衣服、画画、拉车等），DreamZero 平均 39.5%。个别任务表现惊人：摘帽子 85.7%、握手 59.2%、折叠地图 50%。所有 VLA baseline（包括在数千小时跨平台数据上预训练的版本）全部接近 0%。

5.3 跨具身迁移

两种迁移方式，都只用纯视频（无动作标注）：

Robot-to-Robot（YAM 机器人 20 分钟视频）：未见任务进度从 38.3% 提升到 55.4%（+44.6% 相对提升）。
Human-to-Robot（人类第一人称 12 分钟视频）：提升到 54.3%（+41.8% 相对提升）。

5.4 少样本具身适配

在 AgiBot G1 上预训练的模型，只用 YAM 机器人 30 分钟的随意 play data（55 条轨迹，11 个任务）就能适配到 YAM 平台，同时保持在 pick-and-place 变体上的零样本语言跟随能力。

5.5 后训练

在任务特定数据上微调后，DreamZero 在衬衫折叠（92.5%）、水果打包（96%）、收拾餐桌（83%）上达到平均 90.5% 任务进度，匹配或超过在数千小时跨平台数据上预训练的 VLA。

六、总结

DreamZero 证明了三件事：（1）视频扩散模型的物理先验可以直接转化为零样本机器人策略；（2）数据的多样性比重复性更重要，500 小时异构数据打败了数千小时重复示范；（3）14B 模型通过系统级优化可以做到 7Hz 实时控制。

留下的问题：7Hz 对高频任务仍不够，只验证了操作任务、没测记忆依赖任务，数据收集虽然减少了重复但 500 小时仍非小数目。

七、Insight

数据多样性 > 数据重复性，这可能是 WAM 相对 VLA 最根本的范式差异。

DreamZero 的数据策略颠覆了机器人学习的常规做法。传统 VLA 需要反复演示同一个任务来学会精确的观测→动作映射，因为这个映射高度非线性且场景特定。但 WAM 学的是"世界怎么变"，多样的场景比重复的动作更有价值，因为物理规律是跨场景通用的。500 小时 × 42 种技能 × 22 个环境的异构数据，让模型建立了一个通用的物理世界模型，而非一组任务特定的反射弧。这个洞察意味着数据收集策略需要根本性改变：停止对每个任务做 50 次相同的遥操作，转而用同样的时间覆盖尽可能多的场景和技能变体。

八、关键引用

[Abstract] "Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves."

和 VLA 不同，WAM 通过预测未来世界状态和动作来学习物理动力学，把视频当作"世界如何演变"的稠密表征。

[Section 4.1] "We hypothesize that learning to only predict actions without encoding the knowledge about future world states makes it challenging to leverage highly heterogeneous, non-repetitive data effectively."

我们认为只学预测动作、不编码关于未来世界状态的知识，会让模型很难有效利用高度异构的非重复性数据。

[Section 5.1] "Most DreamZero failures stem from video generation errors rather than action prediction—the policy faithfully executes whatever trajectory the video predicts."

DreamZero 的大多数失败来自视频生成错误而非动作提取——策略忠实地执行了视频预测的轨迹。提升视频质量就等于提升策略性能。

[Section 3.2.5] "DreamZero-Flash closes this gap by biasing video timesteps toward high-noise states... training the model to predict clean actions from noisy visual context."

Flash 把视频时间步偏向高噪声，训练模型从噪声视频中提取干净动作，直接匹配 1-step 推理的场景。

九、Q&A

Q1：DreamZero 为什么选自回归而非 UWM 的双向扩散？

三个原因：（1）KV cache 加速，已处理的帧不重算；（2）保持原生帧率，双向需要固定长度输入会导致帧率下采样；（3）闭环控制时用真实观测替换 KV cache 中的预测帧，消除误差累积。代价是无法像 UWM 那样灵活切换推理模式（策略/世界模型/逆动力学），DreamZero 只有联合模式。

Q2：DreamZero-Flash 怎么实现 1-step 推理？

标准训练时视频和动作共享均匀时间步，模型学会在"同等噪声"下预测。但 1-step 推理时视频几乎全噪声，动作却要求干净输出。Flash 把视频时间步偏向 Beta(7,1)（均值 0.875，多数时候接近全噪声），动作保持均匀。训练时模型大量练习了"从高噪声视频提取干净动作"的场景，推理时 1 步就足够。

Q3：为什么从零训练的 VLA 在新环境下全部失败？

VLA 学的是 observation→action 的直接映射，这个映射高度依赖场景特征（光照、桌面纹理、物体外观），换环境后视觉分布变了映射就失效。DreamZero 通过预测未来视频来理解物理规律，这种理解是场景无关的（杯子在任何桌子上被推都会滑），所以对新环境更鲁棒。

Q4：30 分钟 play data 适配新机器人，具体做了什么？

在 AgiBot G1 上预训练好的 DreamZero，用 YAM 机器人上的 55 条随意玩耍轨迹（约 30 分钟，不需要特定任务）做 post-training，只更新状态编码器和动作解码器，让它学会新平台的运动学映射。世界理解完整保留，因为物理规律是跨平台共享的。play data 不需要特定技能，收集成本极低。

Q5：DreamZero 的失败模式是什么？

论文明确指出，大多数失败来自视频预测错误，不是动作提取错误。策略忠实地执行视频预测的轨迹，如果视频预测的手指运动路径不对，动作也跟着错。这意味着两件事：（1）提升视频生成质量会直接提升策略性能，改进方向很清晰；（2）模型的瓶颈不在"理解该做什么动作"，而在"想象未来世界的精确度"。

Q6：500 小时数据的多样性具体是什么样的？

22 个环境（家庭、餐厅、超市、咖啡店、办公室等），42 种技能（导航、身体调整、开门/关门、抓取/放置等），7200+ 集、每集平均 4.4 分钟。关键区别在于"每种技能只做少量变体"而非"每种技能做大量重复"。这和 DROID（2800 集但场景多样性高）的思路类似，但规模更大。

Q7：7Hz 够用吗？

对桌面操作基本够用。DreamZero 的 action chunk 是 48 步 @30Hz（1.6 秒），异步执行让机器人在推理期间持续运动。但对需要快速反应的灵巧操作（如接球、翻转细小物体）还远远不够。传统非生成式 VLA 可达 50Hz+。Flash 优化依赖 GB200 GPU——不是所有部署环境都有。

Q8：DreamZero 和 Cosmos Policy 的关键区别？

规模和理念不同。DreamZero 是 14B 自回归模型，强调零样本泛化和跨具身迁移，用 flow matching 训练；Cosmos Policy 是 2B 双向模型，强调数据效率（50 条示范就能用）和 model-based planning（采样多个候选动作用 value function 打分）。DreamZero 用规模换泛化，Cosmos Policy 用 planning 换精度，走的是 WAM 的不同路线。

摘要