X-WAM 阅读笔记

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising — Jun Guo et al. (Tsinghua / Xiaomi Robotics), 2026

2026-06-02 · 原文 · PDF

摘要

X-WAM 是一个统一的 4D World Action Model，同一个模型同时完成四件事：生成未来视频、预测机器人动作、重建 3D 空间结构，以及实时执行。它的切入点很明确：现有的 World Action Model（WAM）虽然把视频生成和动作预测统一了，但全都困在 2D 像素空间里，缺少深度信息。结果是，生成的未来"世界"是扁平的，几何上也不靠谱。

X-WAM 用两招解决这个问题。第一招叫"轻量深度适配"（Lightweight Depth Adaptation）：复制预训练扩散 Transformer 的最后几层，拼成一个专门预测深度的分支。该分支用单向注意力从主分支读特征，但不会污染主分支，既加了 3D 能力，又保住了预训练的视频先验。第二招叫 ANS（Asynchronous Noise Sampling，异步噪声采样）：推理时动作只用 5 步去噪就出结果，可以马上执行；视频继续走完 25 步以保持高质量。训练时也按这个异步比例采样噪声，让训练分布和推理分布对齐。

经过 5800 小时数据的预训练，X-WAM 在 RoboCasa 上达到 79.2%、在 RoboTwin 2.0 上达到 90.7% 的任务成功率，同时在 4D 重建和生成质量上全面超过已有方法。值得注意的是，加入深度监督不仅提升了 3D 重建效果，连策略执行的成功率也随之上涨。

一、Motivation

想象你在厨房让机器人"把杯子放到架子上"。现有方法分成两个阵营。一边是 VLA（像 $\pi_0$、GR00T N1），直接从观测预测动作，手伸出去就完事，但它"不看未来"，碰到没见过的杯子形状或货架高度就容易碰壁。另一边是 World Model（像 GAIA-1、Genie），能"想象"未来会发生什么，画面很漂亮，可惜只画画不干活，不输出机器人该怎么动。

最近一波工作（UWM、Motus、DreamZero、Cosmos Policy）开始把两边缝合：同一个扩散模型既生成视频又预测动作。然而，这些"统一模型"都有个共同盲区，就是只在 2D 像素空间操作。机器人面对的是三维世界，深度信息一旦丢失，模型就容易"幻想"出几何不合理的未来，也没法做 3D 重建。

X-WAM 的作者正是抓住了这个空隙：如果能把深度信息塞进统一模型，让它预测"4D 世界"（多视角 RGB-D 视频），那同一个模型就能同时优化视频质量、3D 重建精度和策略成功率，因为更准确的空间理解会反哺动作决策。问题在于怎么塞。暴力拼接深度 token 会让序列翻倍（注意力是二次方的），沿通道融合又会偏离预训练分布。他们需要一个轻巧的办法把 3D 加进去，既不炸序列长度，又不毁掉已有的视频先验。

二、现存问题

2D 像素空间的天花板：现有的统一 WAM（UWM、Motus、VideoVLA 等）只在 2D 图像空间建模，缺乏显式的 3D 空间感知。物理世界是三维的，2D 模型容易幻想出几何不合理的未来画面（比如深度关系错误），也没法做 3D 点云重建。
深度信息难以"免费"加入：把深度 token 拼到序列后面会让长度翻倍，注意力计算量按平方增长（1888ms 延迟 vs 1033ms）。而沿通道维度融合深度则偏离预训练 manifold，学习难度大增。
视频和动作的去噪节奏不匹配：高维视频需要很多去噪步（25步）才能高保真，而低维动作 5 步就够了。如果同步走 25 步，动作延迟 4665ms，根本没法实时控制。
解耦采样的训练-推理分布错配：前作（DreamZero、Motus、dit4dit）用独立采样各模态噪声步，但训练时会遇到推理中不存在的配置（视频噪声比动作噪声还低），浪费训练算力。
单一模型同时做多任务的挑战：此前没有任何工作展示过同一个统一模型能同时充当高保真视频生成器、3D 重建系统和高效策略模型。

四、方法详解

Figure 1：X-WAM 概览——统一 4D 建模 + 轻量深度适配 + 异步噪声采样

Figure 2：(a) 模型架构详图；(b) 异步噪声采样的三种采样策略对比及推理过程

4.1 模型架构：统一去噪序列

X-WAM 建在 Wan2.2-T2V-5B 这个预训练视频扩散 Transformer（DiT）上。输入包括 1 张多视角 RGB 条件帧、1 个初始状态和一条语言指令。模型同时预测 $H=8$ 帧未来 RGB 视频、$H=8$ 帧深度视频、$H=8$ 个未来状态和 $K=32$ 个动作。

所有模态被编码成统一的 latent 序列然后一起去噪：

$$\mathbf{Z} = [\mathbf{z}_{O_0}, \mathbf{z}_{O_{1:H}}, \mathbf{z}_{s_0}, \mathbf{z}_{s_{1:H}}, \mathbf{z}_{a_{1:K}}]$$

把初始观测、未来视频帧、初始状态、未来状态和动作全部拼成一个长序列，一起送进扩散 Transformer 做双向注意力去噪。初始观测和初始状态的噪声步设为 0（不加噪），作为条件。

视频帧通过 Causal VAE 编码为 latent $\mathbf{z}_O = \mathcal{E}(O)$。状态和动作通过可学习的 MLP 投射到同一个 latent 空间：$\mathbf{z}_s = \text{MLP}_s(s)$，$\mathbf{z}_a = \text{MLP}_a(a)$。去噪后再用对称的 MLP 解码回原始空间。

这里有个巧妙的不对称设计：$K=32$ 个动作覆盖的时间跨度和 $H=8$ 帧视频相同，意味着动作频率是视频帧率的 4 倍。这反映了真实需求，机器人需要高频控制信号来保证运动平滑，而视频和 3D 重建用低帧率就够了。

多视角兼容也很讲究：原始视频模型用 3D RoPE 编码时空位置。X-WAM 给不同视角的 token 加可学习的 view embedding 来区分，状态和动作则复用视频帧的时间维 RoPE，让模型自己学到"这个状态 token 对应哪一帧"。

4.2 轻量深度适配（Lightweight Depth Adaptation）

这是 X-WAM 最有设计感的部分。问题很直接：怎么让模型预测深度，又不炸序列长度、不偏离预训练分布？

他们的做法：把预训练 DiT 的最后 $M$ 层复制一份，构成专门的"深度分支"（Depth Branch）。和主分支（Main Branch）的最后 $M$ 层交错运行。两个分支共享前 $N-M$ 层的隐状态 $\mathbf{H}$ 作为初始输入：

$$\mathbf{Z}_D^{(j)} = \text{DepthBlock}_j\left(\mathbf{Z}_D^{(j-1)} \mid \mathbf{Z}_m^{(j-1)}\right), \quad \mathbf{Z}_m^{(j)} = \text{DiTBlock}_{N-M+j}\left(\mathbf{Z}_m^{(j-1)}\right)$$

每一层里，深度分支通过 cross-attention 读取主分支同层的特征（单向注意力：深度能看主分支，主分支看不到深度），然后两个分支各自独立往前走。这样深度分支能借到主分支的 RGB 特征来推理空间结构，但主分支完全不受影响，预训练的视频先验被严格保留。

深度用逆深度的 MSE 回归损失训练，与现有的深度估计模型（Depth Anything 3）一致。由于深度分支在推理时可以关闭，对动作解码延迟零开销，仍然是 1033ms。

为什么不暴力拼接？论文的消融实验给了清楚的答案。序列拼接（Sequence Concatenation）虽然深度指标最好，但延迟跳到 1888ms，几乎翻倍。通道拼接（Channel Concatenation）延迟也涨到 1266ms，且成功率掉到 64.2%，因为改了输入 manifold。交错分支（X-WAM 的方案）在成功率（67.8%）、延迟（1033ms）和 4D 重建质量上取得了最佳平衡。

4.3 异步噪声采样（ANS）

第二个核心创新。在扩散模型里，高维数据（视频，几十万维）需要很多去噪步才清晰，低维数据（动作，几十维）只要几步就收敛了。这是个物理事实：维度越高，"走出噪声"需要的步数越多。

推理时的异步策略：分配 $T_a$ 步给动作/状态，$T_O$ 步给视频（$T_a < T_O$，实际是 5 步 vs 25 步）。两者从纯噪声开始，步长不同（$1/T_a$ vs $1/T_O$）。跑完 $T_a$ 步后，动作已完全去噪，立刻发给机器人执行；视频继续跑剩下的 $T_O - T_a$ 步。此时动作变成"干净条件"，推理过程自然转变为"动作条件的世界模型"。

训练时的联合采样：这是 ANS 区别于前作的关键。前作（UWM、Motus、dit4dit）各自独立采样视频噪声 $t_O$ 和动作噪声 $t_a$，导致训练时会见到 $t_O < t_a$ 的配置，即视频比动作干净。但推理时永远是 $t_O \geq t_a$（视频噪声不低于动作噪声）。这种训练-推理错配浪费了训练算力。

X-WAM 用一个联合分布采样：

$$(t_O, t_a) \sim \begin{cases} t_a = 0, \; t_O \sim \text{U}(0,1) & \text{概率 } p \\ t_a \sim \text{U}(0,1), \; t_O = t_a + (1-t_a) \cdot b, \; b \sim \text{Beta}(1.5,1) & \text{概率 } 1-p \end{cases}$$

两种情况混合。(1) 动作完全干净，视频随机加噪，对应推理的第二阶段（动作已解码完成，视频继续去噪）。(2) 动作加随机噪声，视频的噪声步被"推高"到 $[t_a, 1]$ 范围，保证视频噪声不低于动作噪声，与推理一致。Beta(1.5,1) 分布让 $t_O$ 偏向更高值，反映视频通常需要更多去噪步的事实。

4.4 训练细节

用 flow matching 框架训练。每个模态 $m \in \{O, s, a\}$ 的速度预测损失是：

$$\mathcal{L}_m = \left\| f_\theta^m(\mathbf{z}_m^{t_m}, t_m) - (\epsilon_m - \mathbf{z}_m^0) \right\|^2$$

模型预测一个"速度场"，即从当前噪声 latent 指向干净 latent 的方向。训练目标是让预测速度尽量接近真实速度（噪声减去干净数据）。

深度分支的损失是逆深度的 MSE：

$$\mathcal{L}_{\text{depth}} = \left\| \hat{D} - D^* \right\|^2$$

预测的逆深度和真实逆深度之间的均方误差。

总损失把四项加权求和：

$$\mathcal{L}_{\text{total}} = \mathcal{L}_O + \lambda_s \mathcal{L}_s + \lambda_a \mathcal{L}_a + \lambda_D \mathcal{L}_{\text{depth}}$$

视频损失 + 状态损失 + 动作损失 + 深度损失的加权和。

训练数据量很大：超过 5800 小时，涵盖真实机器人和仿真数据，多种操作任务。所有数据统一成一致的坐标系和表示。推理时用 UniPC 多步调度器，视频和动作各自维护独立的调度实例。

五、实验结果

一句话总结：X-WAM 在 RoboCasa（24个厨房任务）上以 79.2% 成功率大幅超过此前 SOTA（Cosmos Policy, 67.1%），在 RoboTwin 2.0（50个双臂任务）的 Clean 和 Randomized 设置下分别达到 89.8% 和 90.7%，同时在 4D 重建质量上全面最优。

4D 重建质量

在 RoboCasa 上评测 4D 重建（Table 3）。X-WAM 在所有指标上全面最优：

RGB 质量：PSNR 23.46 / SSIM 0.8942 / LPIPS 0.0513
深度精度：AbsRel 0.0349 / $\delta_1$ 0.9738
点云质量：Chamfer Distance 0.0049

对比两阶段流水线（DreamZero + DA3）：PSNR 提高 2.34 dB，Chamfer Distance 从 0.0680 降到 0.0049。端到端联合建模的优势远超后挂深度估计器。

4D 重建可视化对比

消融实验的关键发现

深度架构的关键发现：

去掉深度监督，成功率从 67.8% 掉到 63.0%。空间建模对策略执行有直接帮助，不只是 3D 重建的"附赠品"。
序列拼接深度指标最好（AbsRel 0.0332），但延迟翻倍（1888ms）。交错分支的深度指标虽略低（AbsRel 0.0349），但延迟零开销（1033ms），且成功率更高（67.8% vs 64.2% channel concat）。

噪声策略的关键发现：

同步推理（Sync）的延迟 4665ms，完全不可用。异步推理把延迟压到 1033ms，加速 4.5 倍。
Decoupled 训练 + Async 推理的组合可以用，但 4D 重建质量明显下降（PSNR 22.60, AbsRel 0.0430），因为训练中见到了推理不存在的 $t_O < t_a$ 配置。
ANS 通过联合采样消除了这个错配，同时保持了最高成功率（67.8%）和最好的深度指标（AbsRel 0.0349）。

真实环境部署：可扩展性和泛化性设置

X-WAM 还在真实机器人上做了耳机包装任务的部署验证，证明了统一框架的实际可用性。

六、总结

X-WAM 把 World Action Model 从 2D 推到了 4D，核心贡献是两个精巧的设计：用交错深度分支以零延迟代价加入 3D 空间建模，用异步噪声采样对齐训练和推理的噪声分布。最终同一个 5B 模型同时做到了视频生成、3D 重建和策略执行的三料 SOTA。

它打开的新可能是：统一 4D 模型可以成为机器人感知-决策-重建的"一个模型搞定一切"方案，不再需要分别维护 VLA + 3D 重建 + World Model 的流水线。

留下的问题：目前只在仿真（RoboCasa、RoboTwin）和简单真实任务上做了验证，复杂真实场景（多物体长序列操作、软体物体）还有待检验。5B 模型虽然推理可行，但训练 5800 小时数据的成本不低。数据效率和可扩展性是下一步的关键。

七、Insight

深度不只是 3D 重建的副产品，而是策略质量的隐性推动力。X-WAM 的消融显示，去掉深度监督后不只是"3D 重建没了"，策略成功率也从 67.8% 掉到 63.0%。这意味着，让模型理解空间结构会倒逼它产生更准确的未来预测，更准确的预测又反哺更好的动作。3D 理解和 2D 视频质量之间存在正循环，而非此前假设的"3D 是额外负担"。

八、启发

迁移：交错分支的设计思路可以用在其他"给预训练模型加辅助输出"的场景。不动主分支，只用单向注意力读特征，这个模式可以复用到任何需要在预训练 backbone 上加新 head、又不想破坏原始能力的任务上。值得一试的方向：在已有的 VLA/WAM 上用同样方式加一个语义分割分支或接触力预测分支。
反转：ANS 的训练-推理对齐思路挑战了"训练时随机采样噪声步"的默认做法。大多数扩散策略模型都是独立均匀采样各模态噪声，但如果推理时有明确的异步结构，训练分布就应该匹配这个结构。换句话说，在设计任何多模态扩散模型的训练采样时，应该先想清楚推理时的采样轨迹长什么样，再倒推训练分布。

九、关键引用

[Section 1] "Since the physical world is fundamentally three-dimensional, this confinement strips away critical geometric structures, causing models to hallucinate physically implausible futures and preventing geometrically faithful 3D reconstruction."

物理世界本来就是三维的，把模型困在 2D 像素空间就等于剥掉了关键的几何结构，模型只能"幻想"出不合理的未来，也没法做靠谱的 3D 重建。

[Section 3.2] "We term this asymmetric connectivity unilateral attention: the depth branch can read from the main branch, but not vice versa, thereby strictly preserving the integrity of the pretrained weights."

我们把这种不对称连接叫"单向注意力"：深度分支能读主分支的信息，但主分支完全看不到深度分支，从而严格保留了预训练权重的完整性。

[Section 3.3] "Crucially, $t_O$ is sampled conditioned on $t_a$, making them dependent rather than independent random variables. This coupled sampling strategy more faithfully reflects the inference-time distribution."

关键在于，视频噪声步 $t_O$ 是以动作噪声步 $t_a$ 为条件采样的，两者是依赖关系而非独立的。这种联合采样策略更忠实地反映了推理时的分布。

[Section 4.3] "Notably, removing depth supervision entirely causes the policy success rate to drop from 67.8% to 63.0%, confirming that explicit spatial modeling is essential for robust manipulation."

完全去掉深度监督让策略成功率从 67.8% 掉到 63.0%，直接证明了显式空间建模对稳健操作至关重要。

十、Q&A

Q1：X-WAM 的输入是什么形态？输出又是什么？各自的维度和含义是？

输入：(1) 1 帧多视角 RGB 条件图像（通过 Causal VAE 编码）；(2) 1 个初始本体状态 $s_0$（通过 MLP 编码）；(3) 语言指令 $c$（文本 embedding）。

输出：(1) $H=8$ 帧未来多视角 RGB 视频（VAE latent 空间去噪后解码）；(2) $H=8$ 帧深度图（由独立的深度分支输出，也在 VAE latent 空间）；(3) $H=8$ 个未来状态 $s_{1:H}$（MLP 解码）；(4) $K=32$ 个动作 $a_{1:K}$（MLP 解码）。

动作频率是视频帧率的 4 倍（$K/H = 4$），因为操控需要高频控制信号。状态定义为双臂末端执行器位姿 + 夹爪位置，动作定义为位姿和夹爪的变化量。

Q2：深度分支为什么要"单向注意力"而不是双向？

核心原因是保护预训练权重。主分支（Main Branch）继承自 Wan2.2-T2V-5B，其注意力模式和权重已经在海量视频数据上学好。如果让主分支也能看到深度分支的 token，就等于引入全新的、分布外的信息，会破坏已有的视频生成能力。

单向注意力让深度分支"借"主分支的 RGB 特征来推理空间结构，而主分支完全不知道深度分支的存在。这和 adapter 或 LoRA 的设计哲学一致：新加的模块可以读原始模型的信息，但不能反过来污染原始模型。

Q3：训练数据是怎么来的？5800 小时都包含深度信息吗？

训练数据包含真实机器人和仿真数据，涵盖多种操作任务，所有数据统一预处理为一致的坐标系和表示格式。仿真数据（RoboCasa 等）的深度由 simulator 直接提供 ground truth。真实机器人数据方面，论文依赖的假设是"深度可以从 RGB 推断"，因此深度分支在训练时获取深度监督，推理时可以选择关闭。这也意味着并非所有训练数据都需要深度标注，深度分支可以只用有标注的子集来训练。

Q4：ANS 比简单的"推理时只跑 5 步动作"多了什么？只调推理不调训练不行吗？

只调推理确实能做到（就是消融中的"Decoupled train + Async infer"），但会出问题。如果训练时独立均匀采样 $t_O$ 和 $t_a$，大约一半的训练样本会落在 $t_O < t_a$ 的区域，即视频比动作干净。而推理时视频噪声永远不低于动作噪声（因为视频步数更多、步长更小）。这些"推理不存在的配置"白白浪费了训练算力，更糟糕的是会让模型学到错误的条件分布。

消融数据直接说明了后果：Decoupled + Async 的 PSNR 只有 22.60，而 ANS 是 23.46；AbsRel 从 0.0430 恶化到 0.0349。成功率也从 67.2% 提高到 67.8%。ANS 的联合采样保证了训练时只见到推理时真正会遇到的噪声配置，消除了错配。

Q5：深度分支在推理时可以关掉，那加深度的意义在哪？

这恰恰是最有意思的发现。深度分支在推理时确实可以关掉（关掉后延迟不变，1033ms），但训练时的深度监督会"回灌"到共享的前 $N-M$ 层。这些层同时服务于主分支和深度分支，深度监督迫使它们学到更好的空间特征表示。即使推理时不显式输出深度图，这些更好的空间特征仍然在帮助视频生成和动作预测。

消融证据：去掉深度（No depth）成功率 63.0%，加上交错深度分支后升至 67.8%，纯粹是训练时深度监督带来的策略提升。这说明 3D 理解是策略质量的隐性推动力。

Q6：Beta(1.5, 1) 分布在 ANS 里起什么作用？为什么不用均匀分布？

在 ANS 的联合采样公式里，$t_O = t_a + (1-t_a) \cdot b$，$b \sim \text{Beta}(1.5, 1)$。这个 Beta 分布的均值约 0.6，偏向较大值。效果是：给定动作噪声 $t_a$ 后，视频噪声 $t_O$ 被推向 $[t_a, 1]$ 区间的偏高位置。

物理含义是：视频通常比动作需要更多去噪步，所以在大多数训练样本里，视频应该比动作"更吵"。如果用均匀分布 $b \sim \text{U}(0,1)$，$t_O$ 会均匀分布在 $[t_a, 1]$ 里，但推理时视频实际以更大的步长去噪，分布偏向高噪声端。Beta(1.5, 1) 更好地拟合了这个推理时的真实分布。

Q7：X-WAM 用的是 Wan2.2-T2V-5B，为什么不用更大的模型（比如 DreamZero 的 14B I2V）？

论文没有直接说明，但可以推测几个原因。(1) X-WAM 是 T2V（文本到视频）而非 I2V（图像到视频），架构选择本身不同。(2) 5B 模型在保持实时性（1033ms 动作延迟）方面更可行，14B 模型的裸推理需要数秒。(3) X-WAM 加了深度分支（复制最后 M 层），总参数量可能接近 6-7B。(4) 在 RoboCasa 上 5B 的 X-WAM（79.2%）已超过 DreamZero 的 14B（62.4%），说明模型并非越大越好，架构设计（4D + ANS）比单纯堆参数更有效。

Q8：1033ms 的动作延迟对实时控制够快吗？

X-WAM 每次输出 $K=32$ 个动作，覆盖约 8 帧视频的时间跨度。如果视频帧率是 4 Hz（每 250ms 一帧），那 8 帧对应 2 秒。用 1033ms 解码 2 秒的动作序列，在动作开始执行前确实有约 1 秒的延迟，但一旦开始就可以连续执行 2 秒。论文还提到在真实机器人上实现了"real-time execution deployment"，说明 chunk 间的流水线化（边执行边解码下一个 chunk）使得有效控制频率足够用。

对比：同步推理（25步全走完）需要 4665ms，那真的没法用了。ANS 的 4.5 倍加速是使 WAM 走向实用的关键一步。

Q9：为什么加了深度监督以后策略成功率也涨了？背后的机制是什么？

论文给了实验证据，但没有深挖机制。一个合理的解释是，深度监督迫使模型的共享层（前 $N-M$ 层）学到对 3D 几何敏感的特征。这些特征不只对深度预测有用，它们还提供了更好的物体位置、空间关系和遮挡关系的理解，直接帮助动作预测。

以"把杯子放到架子上"为例，模型需要理解杯子和架子之间的三维距离与相对方向。如果只在 2D 像素上学习，对深度的判断会很模糊。加了深度监督后，模型被迫学会精确的空间距离感，动作预测因此更准确。这也解释了为什么端到端深度比后挂 DA3 更好：联合学习让空间理解和动作预测相互增强，而后挂方案是两个独立模型，没有信息回流。

Q10：X-WAM 什么时候会失效？最薄弱的假设是什么？

有几个潜在弱点。(1) 静态/动态相机假设：X-WAM 把相机分为"固定三脚架"和"腕部相机"两类，腕部相机位姿通过末端执行器位姿和固定的手眼标定矩阵推算。如果相机安装位置不属于这两类（比如可移动的外部相机），假设就不成立。(2) 短时域限制：一次预测 8 帧视频 + 32 个动作，长序列多步操作需要反复自回归调用，误差可能累积。(3) 仿真-真实迁移：核心消融都在 RoboCasa 仿真里做的，真实世界的验证只有耳机包装一个场景；仿真里 PSNR/SSIM 好看，不等于真实环境下感知也鲁棒。(4) 深度 GT 依赖：训练深度分支需要深度 ground truth，仿真免费提供，真实数据则要么用 DA3 等模型估计（引入噪声），要么需要 RGB-D 相机（硬件限制）。

摘要