DreamZero 阅读笔记
World Action Models are Zero-shot Policies — Seonghyeon Ye et al. (NVIDIA), 2026
摘要
DreamZero 是目前规模最大的 WAM(World Action Model):14B 参数,建在预训练视频扩散模型 Wan2.1-I2V-14B 上。它的标题 "World Action Models are Zero-shot Policies" 就是核心论点:如果模型真正理解了物理世界的变化规律,它天然就能执行从未见过的任务,不需要这个任务的任何示范。
DreamZero 在 AgiBot G1 真实机器人上验证了这个论点:已见任务平均任务进度 62.2%,是最强预训练 VLA(GR00T N1.6 Pretrained, 27.4%)的两倍多。更惊人的是,未见任务(解鞋带、熨衣服等训练数据中完全不存在的动作)也达到了 39.5%,而所有 VLA 全部接近 0%。推理端则通过一套从系统级到模型级的优化,把 14B 模型的延迟从 5.7 秒压到 150ms,实现 7Hz 闭环控制。还有个意想不到的发现:只用 30 分钟另一个机器人的随意玩耍数据,就能把整个策略迁移到新平台,同时保留零样本泛化能力。
一、Motivation
VLA 模型(RT-2、$\pi_0$、GR00T N1.6)擅长"语义泛化"。你说"把可乐移到 Taylor Swift 旁边",它能理解语义找到目标,因为它从大语言模型继承了语言-视觉的对应知识。但让它做一个训练数据里没有的物理动作,比如"解鞋带",它就彻底失败了。原因是 VLM 的预训练数据是静态图文对,没有时序动力学信息。模型知道"鞋带是什么",但不知道"拉开鞋带的绳结需要什么手指动作"。
另一方面,视频扩散模型在互联网级视频数据上训练,已经学到了极其丰富的物理规律:物体掉落、液体流动、手指操作物体,这些都以"未来帧预测"的形式编码在模型权重里。如果能把这种"视频中的物理直觉"转化为机器人策略,就可能跳过 VLA 对大量重复示范的依赖。
DreamZero 的策略很直接:拿一个 14B 的预训练视频扩散模型做 backbone,只加少量的状态编码器和动作解码器,用联合视频-动作目标训练。backbone 已经懂物理,模型只需额外学"怎么从视频预测里提取该做的动作"。关键赌注在于数据的多样性比重复性更重要:500 小时涵盖 42 种技能、22 个环境的异构数据,比数千小时同一任务的重复示范更有价值。
二、现存问题
- VLA 的物理泛化缺陷:VLA 预训练在静态图文上,缺乏时空动力学理解,从零训练的 VLA 在新环境下几乎 0% 任务进度。
- 重复示范依赖:现有通才策略(如 $\pi_{0.5}$)需要数千小时的跨平台重复示范来建立泛化,收集成本极高。
- WAM 推理速度:视频扩散模型需要迭代去噪。14B 参数模型朴素实现需要 5.7 秒/action chunk,完全无法实时控制。
- 视频-动作对齐:双向扩散(如 UWM)需要固定长度输入,会下采样视频帧率导致视频-动作时序失配。自回归架构可以避免这个问题但引入了 KV cache 管理的复杂性。
- 误差累积:自回归视频预测每一步都可能偏离真实,多步后完全失真。需要某种机制在闭环中纠正。
四、方法详解
Figure 4:DreamZero 架构。左:训练时联合 flow matching 去噪视频 latent 和动作。右:推理时异步执行,KV cache 中的预测帧被真实观测替换。
4.1 问题分解
DreamZero 把联合预测分解为两部分,但用一个端到端模型同时实现:
$$\pi_\theta(\mathbf{o}_{l:l+H}, \mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l) = \underbrace{\pi_\theta(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l)}_{\text{video prediction}} \; \underbrace{\pi_\theta(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l)}_{\text{IDM}}$$4.2 为什么选自回归
三个实用原因让 DreamZero 选了自回归而非 UWM 的双向扩散:
- KV cache 加速:已处理过的帧不需要重新计算。
- 保持原生帧率:双向扩散需要固定长度输入,不得不下采样帧率,破坏视频-动作的时序对齐。自回归则天然支持可变长度上下文。
- 闭环纠错:每执行完一个 action chunk,把 KV cache 里的预测帧替换为真实观测,直接消除自回归的误差累积。这是相对纯视频生成的关键改进。
4.3 Flow Matching + Teacher Forcing
训练用 flow matching(而非 DDPM),预测从噪声到数据的"速度场"。所有帧按 chunk 处理,每个 chunk $k$ 内的帧共享同一个时间步 $t_k$,但不同 chunk 的时间步独立采样:
$$\mathcal{L}(\theta) = \mathbb{E}\left[\frac{1}{K}\sum_{k=1}^{K} w(t_k) \|\mathbf{u}_\theta([\mathbf{z}_{t_k}^k, \mathbf{a}_{t_k}^k]; \mathcal{C}_k, \mathbf{c}, \mathbf{q}_k, t_k) - \mathbf{v}^k\|^2\right]$$4.4 推理:38 倍加速
Figure 5:DreamZero(蓝色)视频和动作共享均匀噪声。DreamZero-Flash(红色)把视频噪声偏向高噪声(Beta(7,1)),动作保持均匀。
朴素实现 5.7 秒/chunk,经过四级优化:
DreamZero-Flash 是最关键的模型级优化。标准 DreamZero 训练时视频和动作共享均匀时间步 $t_k \sim \mathcal{U}(0,1)$,但推理时如果只跑 1-4 步去噪,视频还很模糊,从模糊视频里提取的动作就不准。Flash 的解法是:训练时把视频时间步偏向高噪声($t_k^{\text{video}} = 1 - \eta$, $\eta \sim \text{Beta}(7,1)$, 均值 0.875),动作时间步保持均匀。这样模型大量练习了"从几乎全噪声的视频里提取干净动作",推理时 1 步就够了,延迟从 350ms 降到 150ms。
4.5 数据策略:多样性 > 重复性
DreamZero 在 AgiBot G1 上收集了约 500 小时遥操作数据,覆盖 22 个环境(家庭、餐厅、超市、咖啡店、办公室)和 42 种技能。每集平均 4.4 分钟,比典型操作数据集(30 秒/集)长得多。策略不是追求每个任务重复做几十次,而是追求场景和技能的广度。
五、实验结果
5.1 已见任务:新环境新物体
Figure 8:已见任务评估。DreamZero(红色)在所有类别上超过 VLA。从零训练的 VLA 几乎全 0%。
在 AgiBot G1 上,DreamZero 已见任务平均 62.2% 任务进度,最强预训练 VLA(GR00T N1.6 Pretrained)只有 27.4%。从零训练的 VLA(GR00T/pi0.5 Scratch)全部接近 0%。在 DROID-Franka 上也类似:DreamZero 75% 成功率 vs GR00T 49%。
5.2 未见任务:零样本泛化
Figure 9:未见任务零样本泛化。DreamZero 在完全不在训练数据中的任务上达到 39.5%,VLA 全部接近 0%。
10 个完全不在训练数据中的任务(解鞋带、熨衣服、画画、拉车等),DreamZero 平均 39.5%。个别任务表现惊人:摘帽子 85.7%、握手 59.2%、折叠地图 50%。所有 VLA baseline(包括在数千小时跨平台数据上预训练的版本)全部接近 0%。
5.3 跨具身迁移
两种迁移方式,都只用纯视频(无动作标注):
- Robot-to-Robot(YAM 机器人 20 分钟视频):未见任务进度从 38.3% 提升到 55.4%(+44.6% 相对提升)。
- Human-to-Robot(人类第一人称 12 分钟视频):提升到 54.3%(+41.8% 相对提升)。
5.4 少样本具身适配
在 AgiBot G1 上预训练的模型,只用 YAM 机器人 30 分钟的随意 play data(55 条轨迹,11 个任务)就能适配到 YAM 平台,同时保持在 pick-and-place 变体上的零样本语言跟随能力。
5.5 后训练
在任务特定数据上微调后,DreamZero 在衬衫折叠(92.5%)、水果打包(96%)、收拾餐桌(83%)上达到平均 90.5% 任务进度,匹配或超过在数千小时跨平台数据上预训练的 VLA。
六、总结
DreamZero 证明了三件事:(1)视频扩散模型的物理先验可以直接转化为零样本机器人策略;(2)数据的多样性比重复性更重要,500 小时异构数据打败了数千小时重复示范;(3)14B 模型通过系统级优化可以做到 7Hz 实时控制。
留下的问题:7Hz 对高频任务仍不够,只验证了操作任务、没测记忆依赖任务,数据收集虽然减少了重复但 500 小时仍非小数目。
七、Insight
数据多样性 > 数据重复性,这可能是 WAM 相对 VLA 最根本的范式差异。
DreamZero 的数据策略颠覆了机器人学习的常规做法。传统 VLA 需要反复演示同一个任务来学会精确的观测→动作映射,因为这个映射高度非线性且场景特定。但 WAM 学的是"世界怎么变",多样的场景比重复的动作更有价值,因为物理规律是跨场景通用的。500 小时 × 42 种技能 × 22 个环境的异构数据,让模型建立了一个通用的物理世界模型,而非一组任务特定的反射弧。这个洞察意味着数据收集策略需要根本性改变:停止对每个任务做 50 次相同的遥操作,转而用同样的时间覆盖尽可能多的场景和技能变体。
八、关键引用
[Abstract] "Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves."
和 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,把视频当作"世界如何演变"的稠密表征。
[Section 4.1] "We hypothesize that learning to only predict actions without encoding the knowledge about future world states makes it challenging to leverage highly heterogeneous, non-repetitive data effectively."
我们认为只学预测动作、不编码关于未来世界状态的知识,会让模型很难有效利用高度异构的非重复性数据。
[Section 5.1] "Most DreamZero failures stem from video generation errors rather than action prediction—the policy faithfully executes whatever trajectory the video predicts."
DreamZero 的大多数失败来自视频生成错误而非动作提取——策略忠实地执行了视频预测的轨迹。提升视频质量就等于提升策略性能。
[Section 3.2.5] "DreamZero-Flash closes this gap by biasing video timesteps toward high-noise states... training the model to predict clean actions from noisy visual context."
Flash 把视频时间步偏向高噪声,训练模型从噪声视频中提取干净动作,直接匹配 1-step 推理的场景。
九、Q&A
三个原因:(1)KV cache 加速,已处理的帧不重算;(2)保持原生帧率,双向需要固定长度输入会导致帧率下采样;(3)闭环控制时用真实观测替换 KV cache 中的预测帧,消除误差累积。代价是无法像 UWM 那样灵活切换推理模式(策略/世界模型/逆动力学),DreamZero 只有联合模式。
标准训练时视频和动作共享均匀时间步,模型学会在"同等噪声"下预测。但 1-step 推理时视频几乎全噪声,动作却要求干净输出。Flash 把视频时间步偏向 Beta(7,1)(均值 0.875,多数时候接近全噪声),动作保持均匀。训练时模型大量练习了"从高噪声视频提取干净动作"的场景,推理时 1 步就足够。
VLA 学的是 observation→action 的直接映射,这个映射高度依赖场景特征(光照、桌面纹理、物体外观),换环境后视觉分布变了映射就失效。DreamZero 通过预测未来视频来理解物理规律,这种理解是场景无关的(杯子在任何桌子上被推都会滑),所以对新环境更鲁棒。
在 AgiBot G1 上预训练好的 DreamZero,用 YAM 机器人上的 55 条随意玩耍轨迹(约 30 分钟,不需要特定任务)做 post-training,只更新状态编码器和动作解码器,让它学会新平台的运动学映射。世界理解完整保留,因为物理规律是跨平台共享的。play data 不需要特定技能,收集成本极低。
论文明确指出,大多数失败来自视频预测错误,不是动作提取错误。策略忠实地执行视频预测的轨迹,如果视频预测的手指运动路径不对,动作也跟着错。这意味着两件事:(1)提升视频生成质量会直接提升策略性能,改进方向很清晰;(2)模型的瓶颈不在"理解该做什么动作",而在"想象未来世界的精确度"。
22 个环境(家庭、餐厅、超市、咖啡店、办公室等),42 种技能(导航、身体调整、开门/关门、抓取/放置等),7200+ 集、每集平均 4.4 分钟。关键区别在于"每种技能只做少量变体"而非"每种技能做大量重复"。这和 DROID(2800 集但场景多样性高)的思路类似,但规模更大。
对桌面操作基本够用。DreamZero 的 action chunk 是 48 步 @30Hz(1.6 秒),异步执行让机器人在推理期间持续运动。但对需要快速反应的灵巧操作(如接球、翻转细小物体)还远远不够。传统非生成式 VLA 可达 50Hz+。Flash 优化依赖 GB200 GPU——不是所有部署环境都有。
规模和理念不同。DreamZero 是 14B 自回归模型,强调零样本泛化和跨具身迁移,用 flow matching 训练;Cosmos Policy 是 2B 双向模型,强调数据效率(50 条示范就能用)和 model-based planning(采样多个候选动作用 value function 打分)。DreamZero 用规模换泛化,Cosmos Policy 用 planning 换精度,走的是 WAM 的不同路线。