X-WAM 阅读笔记

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising — Jun Guo et al. (Tsinghua / Xiaomi Robotics), 2026

2026-06-02 · 原文 · PDF

摘要

X-WAM 是一个统一的 4D World Action Model,同一个模型同时完成四件事:生成未来视频、预测机器人动作、重建 3D 空间结构,以及实时执行。它的切入点很明确:现有的 World Action Model(WAM)虽然把视频生成和动作预测统一了,但全都困在 2D 像素空间里,缺少深度信息。结果是,生成的未来"世界"是扁平的,几何上也不靠谱。

X-WAM 用两招解决这个问题。第一招叫"轻量深度适配"(Lightweight Depth Adaptation):复制预训练扩散 Transformer 的最后几层,拼成一个专门预测深度的分支。该分支用单向注意力从主分支读特征,但不会污染主分支,既加了 3D 能力,又保住了预训练的视频先验。第二招叫 ANS(Asynchronous Noise Sampling,异步噪声采样):推理时动作只用 5 步去噪就出结果,可以马上执行;视频继续走完 25 步以保持高质量。训练时也按这个异步比例采样噪声,让训练分布和推理分布对齐。

经过 5800 小时数据的预训练,X-WAM 在 RoboCasa 上达到 79.2%、在 RoboTwin 2.0 上达到 90.7% 的任务成功率,同时在 4D 重建和生成质量上全面超过已有方法。值得注意的是,加入深度监督不仅提升了 3D 重建效果,连策略执行的成功率也随之上涨。

一、Motivation

想象你在厨房让机器人"把杯子放到架子上"。现有方法分成两个阵营。一边是 VLA(像 $\pi_0$、GR00T N1),直接从观测预测动作,手伸出去就完事,但它"不看未来",碰到没见过的杯子形状或货架高度就容易碰壁。另一边是 World Model(像 GAIA-1、Genie),能"想象"未来会发生什么,画面很漂亮,可惜只画画不干活,不输出机器人该怎么动。

最近一波工作(UWM、Motus、DreamZero、Cosmos Policy)开始把两边缝合:同一个扩散模型既生成视频又预测动作。然而,这些"统一模型"都有个共同盲区,就是只在 2D 像素空间操作。机器人面对的是三维世界,深度信息一旦丢失,模型就容易"幻想"出几何不合理的未来,也没法做 3D 重建。

X-WAM 的作者正是抓住了这个空隙:如果能把深度信息塞进统一模型,让它预测"4D 世界"(多视角 RGB-D 视频),那同一个模型就能同时优化视频质量、3D 重建精度和策略成功率,因为更准确的空间理解会反哺动作决策。问题在于怎么塞。暴力拼接深度 token 会让序列翻倍(注意力是二次方的),沿通道融合又会偏离预训练分布。他们需要一个轻巧的办法把 3D 加进去,既不炸序列长度,又不毁掉已有的视频先验。

二、现存问题

四、方法详解

Figure 1: Overview of X-WAM

Figure 1:X-WAM 概览——统一 4D 建模 + 轻量深度适配 + 异步噪声采样

Figure 2: Model Architecture and ANS

Figure 2:(a) 模型架构详图;(b) 异步噪声采样的三种采样策略对比及推理过程

X-WAM 整体数据流 多视角 RGB 图 本体状态 $s_0$ 语言指令 $c$ Causal VAE State MLP Action MLP 统一去噪序列 Z [z_O, z_O1:H, z_s0, z_s1:H, z_a1:K] Diffusion Transformer Wan2.2-T2V-5B (N blocks) Main Blocks N-M 层 Depth Blocks M 层 (复制) cross-attn RGB 视频 (H=8帧) 深度视频 (H=8帧) 状态 $s_{1:H}$ 动作 $a_{1:K}$ (K=32) ANS: 动作 5 步 / 视频 25 步 Source: Figure 1 & Figure 2 of the paper

4.1 模型架构:统一去噪序列

X-WAM 建在 Wan2.2-T2V-5B 这个预训练视频扩散 Transformer(DiT)上。输入包括 1 张多视角 RGB 条件帧、1 个初始状态和一条语言指令。模型同时预测 $H=8$ 帧未来 RGB 视频、$H=8$ 帧深度视频、$H=8$ 个未来状态和 $K=32$ 个动作。

所有模态被编码成统一的 latent 序列然后一起去噪:

$$\mathbf{Z} = [\mathbf{z}_{O_0}, \mathbf{z}_{O_{1:H}}, \mathbf{z}_{s_0}, \mathbf{z}_{s_{1:H}}, \mathbf{z}_{a_{1:K}}]$$
把初始观测、未来视频帧、初始状态、未来状态和动作全部拼成一个长序列,一起送进扩散 Transformer 做双向注意力去噪。初始观测和初始状态的噪声步设为 0(不加噪),作为条件。

视频帧通过 Causal VAE 编码为 latent $\mathbf{z}_O = \mathcal{E}(O)$。状态和动作通过可学习的 MLP 投射到同一个 latent 空间:$\mathbf{z}_s = \text{MLP}_s(s)$,$\mathbf{z}_a = \text{MLP}_a(a)$。去噪后再用对称的 MLP 解码回原始空间。

这里有个巧妙的不对称设计:$K=32$ 个动作覆盖的时间跨度和 $H=8$ 帧视频相同,意味着动作频率是视频帧率的 4 倍。这反映了真实需求,机器人需要高频控制信号来保证运动平滑,而视频和 3D 重建用低帧率就够了。

多视角兼容也很讲究:原始视频模型用 3D RoPE 编码时空位置。X-WAM 给不同视角的 token 加可学习的 view embedding 来区分,状态和动作则复用视频帧的时间维 RoPE,让模型自己学到"这个状态 token 对应哪一帧"。

4.2 轻量深度适配(Lightweight Depth Adaptation)

这是 X-WAM 最有设计感的部分。问题很直接:怎么让模型预测深度,又不炸序列长度、不偏离预训练分布?

他们的做法:把预训练 DiT 的最后 $M$ 层复制一份,构成专门的"深度分支"(Depth Branch)。和主分支(Main Branch)的最后 $M$ 层交错运行。两个分支共享前 $N-M$ 层的隐状态 $\mathbf{H}$ 作为初始输入:

$$\mathbf{Z}_D^{(j)} = \text{DepthBlock}_j\left(\mathbf{Z}_D^{(j-1)} \mid \mathbf{Z}_m^{(j-1)}\right), \quad \mathbf{Z}_m^{(j)} = \text{DiTBlock}_{N-M+j}\left(\mathbf{Z}_m^{(j-1)}\right)$$
每一层里,深度分支通过 cross-attention 读取主分支同层的特征(单向注意力:深度能看主分支,主分支看不到深度),然后两个分支各自独立往前走。这样深度分支能借到主分支的 RGB 特征来推理空间结构,但主分支完全不受影响,预训练的视频先验被严格保留。

深度用逆深度的 MSE 回归损失训练,与现有的深度估计模型(Depth Anything 3)一致。由于深度分支在推理时可以关闭,对动作解码延迟零开销,仍然是 1033ms。

为什么不暴力拼接?论文的消融实验给了清楚的答案。序列拼接(Sequence Concatenation)虽然深度指标最好,但延迟跳到 1888ms,几乎翻倍。通道拼接(Channel Concatenation)延迟也涨到 1266ms,且成功率掉到 64.2%,因为改了输入 manifold。交错分支(X-WAM 的方案)在成功率(67.8%)、延迟(1033ms)和 4D 重建质量上取得了最佳平衡。

4.3 异步噪声采样(ANS)

第二个核心创新。在扩散模型里,高维数据(视频,几十万维)需要很多去噪步才清晰,低维数据(动作,几十维)只要几步就收敛了。这是个物理事实:维度越高,"走出噪声"需要的步数越多。

推理时的异步策略:分配 $T_a$ 步给动作/状态,$T_O$ 步给视频($T_a < T_O$,实际是 5 步 vs 25 步)。两者从纯噪声开始,步长不同($1/T_a$ vs $1/T_O$)。跑完 $T_a$ 步后,动作已完全去噪,立刻发给机器人执行;视频继续跑剩下的 $T_O - T_a$ 步。此时动作变成"干净条件",推理过程自然转变为"动作条件的世界模型"。

训练时的联合采样:这是 ANS 区别于前作的关键。前作(UWM、Motus、dit4dit)各自独立采样视频噪声 $t_O$ 和动作噪声 $t_a$,导致训练时会见到 $t_O < t_a$ 的配置,即视频比动作干净。但推理时永远是 $t_O \geq t_a$(视频噪声不低于动作噪声)。这种训练-推理错配浪费了训练算力。

X-WAM 用一个联合分布采样:

$$(t_O, t_a) \sim \begin{cases} t_a = 0, \; t_O \sim \text{U}(0,1) & \text{概率 } p \\ t_a \sim \text{U}(0,1), \; t_O = t_a + (1-t_a) \cdot b, \; b \sim \text{Beta}(1.5,1) & \text{概率 } 1-p \end{cases}$$
两种情况混合。(1) 动作完全干净,视频随机加噪,对应推理的第二阶段(动作已解码完成,视频继续去噪)。(2) 动作加随机噪声,视频的噪声步被"推高"到 $[t_a, 1]$ 范围,保证视频噪声不低于动作噪声,与推理一致。Beta(1.5,1) 分布让 $t_O$ 偏向更高值,反映视频通常需要更多去噪步的事实。

4.4 训练细节

用 flow matching 框架训练。每个模态 $m \in \{O, s, a\}$ 的速度预测损失是:

$$\mathcal{L}_m = \left\| f_\theta^m(\mathbf{z}_m^{t_m}, t_m) - (\epsilon_m - \mathbf{z}_m^0) \right\|^2$$
模型预测一个"速度场",即从当前噪声 latent 指向干净 latent 的方向。训练目标是让预测速度尽量接近真实速度(噪声减去干净数据)。

深度分支的损失是逆深度的 MSE:

$$\mathcal{L}_{\text{depth}} = \left\| \hat{D} - D^* \right\|^2$$
预测的逆深度和真实逆深度之间的均方误差。

总损失把四项加权求和:

$$\mathcal{L}_{\text{total}} = \mathcal{L}_O + \lambda_s \mathcal{L}_s + \lambda_a \mathcal{L}_a + \lambda_D \mathcal{L}_{\text{depth}}$$
视频损失 + 状态损失 + 动作损失 + 深度损失的加权和。

训练数据量很大:超过 5800 小时,涵盖真实机器人和仿真数据,多种操作任务。所有数据统一成一致的坐标系和表示。推理时用 UniPC 多步调度器,视频和动作各自维护独立的调度实例。

五、实验结果

一句话总结:X-WAM 在 RoboCasa(24个厨房任务)上以 79.2% 成功率大幅超过此前 SOTA(Cosmos Policy, 67.1%),在 RoboTwin 2.0(50个双臂任务)的 Clean 和 Randomized 设置下分别达到 89.8% 和 90.7%,同时在 4D 重建质量上全面最优。

RoboCasa 24 任务平均成功率 (%) UWM 60.8 $\pi_0$ 62.5 DreamZero 62.4 GR00T-N1.5 64.1 Cosmos Policy 67.1 X-WAM (Ours) 79.2 (+12.1) 越长越好 | Source: Table 1 of the paper RoboTwin 2.0: Clean vs Randomized 成功率 (%) $\pi_0$ $\pi_{0.5}$ UWM GigaWorld-Policy Motus X-WAM (Ours) 65.9 82.7 81.7 87.0 88.7 89.8 58.4 76.8 78.6 85.0 87.0 90.7 Clean Randomized Source: Table 2 of the paper

4D 重建质量

在 RoboCasa 上评测 4D 重建(Table 3)。X-WAM 在所有指标上全面最优:

对比两阶段流水线(DreamZero + DA3):PSNR 提高 2.34 dB,Chamfer Distance 从 0.0680 降到 0.0049。端到端联合建模的优势远超后挂深度估计器。

Figure: 4D reconstruction visualization

4D 重建可视化对比

消融实验的关键发现

消融实验:深度架构设计 (RoboCasa SR% + 延迟 ms) No depth 63.0% | 1033ms Seq concatenation 68.7% | 1888ms Channel concat 64.2% | 1266ms Interleaved (Ours) 67.8% | 1033ms 消融实验:噪声采样策略 Sync train + Sync infer 66.4% | 4665ms Decoupled + Async infer 67.2% | 1033ms ANS (Ours) 67.8% | 1033ms Source: Table 4 of the paper

深度架构的关键发现:

噪声策略的关键发现:

Figure: Real-world deployment

真实环境部署:可扩展性和泛化性设置

X-WAM 还在真实机器人上做了耳机包装任务的部署验证,证明了统一框架的实际可用性。

六、总结

X-WAM 把 World Action Model 从 2D 推到了 4D,核心贡献是两个精巧的设计:用交错深度分支以零延迟代价加入 3D 空间建模,用异步噪声采样对齐训练和推理的噪声分布。最终同一个 5B 模型同时做到了视频生成、3D 重建和策略执行的三料 SOTA。

它打开的新可能是:统一 4D 模型可以成为机器人感知-决策-重建的"一个模型搞定一切"方案,不再需要分别维护 VLA + 3D 重建 + World Model 的流水线。

留下的问题:目前只在仿真(RoboCasa、RoboTwin)和简单真实任务上做了验证,复杂真实场景(多物体长序列操作、软体物体)还有待检验。5B 模型虽然推理可行,但训练 5800 小时数据的成本不低。数据效率和可扩展性是下一步的关键。

七、Insight

深度不只是 3D 重建的副产品,而是策略质量的隐性推动力。X-WAM 的消融显示,去掉深度监督后不只是"3D 重建没了",策略成功率也从 67.8% 掉到 63.0%。这意味着,让模型理解空间结构会倒逼它产生更准确的未来预测,更准确的预测又反哺更好的动作。3D 理解和 2D 视频质量之间存在正循环,而非此前假设的"3D 是额外负担"。

八、启发

九、关键引用

[Section 1] "Since the physical world is fundamentally three-dimensional, this confinement strips away critical geometric structures, causing models to hallucinate physically implausible futures and preventing geometrically faithful 3D reconstruction."

物理世界本来就是三维的,把模型困在 2D 像素空间就等于剥掉了关键的几何结构,模型只能"幻想"出不合理的未来,也没法做靠谱的 3D 重建。
[Section 3.2] "We term this asymmetric connectivity unilateral attention: the depth branch can read from the main branch, but not vice versa, thereby strictly preserving the integrity of the pretrained weights."

我们把这种不对称连接叫"单向注意力":深度分支能读主分支的信息,但主分支完全看不到深度分支,从而严格保留了预训练权重的完整性。
[Section 3.3] "Crucially, $t_O$ is sampled conditioned on $t_a$, making them dependent rather than independent random variables. This coupled sampling strategy more faithfully reflects the inference-time distribution."

关键在于,视频噪声步 $t_O$ 是以动作噪声步 $t_a$ 为条件采样的,两者是依赖关系而非独立的。这种联合采样策略更忠实地反映了推理时的分布。
[Section 4.3] "Notably, removing depth supervision entirely causes the policy success rate to drop from 67.8% to 63.0%, confirming that explicit spatial modeling is essential for robust manipulation."

完全去掉深度监督让策略成功率从 67.8% 掉到 63.0%,直接证明了显式空间建模对稳健操作至关重要。

十、Q&A

Q1:X-WAM 的输入是什么形态?输出又是什么?各自的维度和含义是?

输入:(1) 1 帧多视角 RGB 条件图像(通过 Causal VAE 编码);(2) 1 个初始本体状态 $s_0$(通过 MLP 编码);(3) 语言指令 $c$(文本 embedding)。

输出:(1) $H=8$ 帧未来多视角 RGB 视频(VAE latent 空间去噪后解码);(2) $H=8$ 帧深度图(由独立的深度分支输出,也在 VAE latent 空间);(3) $H=8$ 个未来状态 $s_{1:H}$(MLP 解码);(4) $K=32$ 个动作 $a_{1:K}$(MLP 解码)。

动作频率是视频帧率的 4 倍($K/H = 4$),因为操控需要高频控制信号。状态定义为双臂末端执行器位姿 + 夹爪位置,动作定义为位姿和夹爪的变化量。

Q2:深度分支为什么要"单向注意力"而不是双向?

核心原因是保护预训练权重。主分支(Main Branch)继承自 Wan2.2-T2V-5B,其注意力模式和权重已经在海量视频数据上学好。如果让主分支也能看到深度分支的 token,就等于引入全新的、分布外的信息,会破坏已有的视频生成能力。

单向注意力让深度分支"借"主分支的 RGB 特征来推理空间结构,而主分支完全不知道深度分支的存在。这和 adapter 或 LoRA 的设计哲学一致:新加的模块可以读原始模型的信息,但不能反过来污染原始模型。

Q3:训练数据是怎么来的?5800 小时都包含深度信息吗?

训练数据包含真实机器人和仿真数据,涵盖多种操作任务,所有数据统一预处理为一致的坐标系和表示格式。仿真数据(RoboCasa 等)的深度由 simulator 直接提供 ground truth。真实机器人数据方面,论文依赖的假设是"深度可以从 RGB 推断",因此深度分支在训练时获取深度监督,推理时可以选择关闭。这也意味着并非所有训练数据都需要深度标注,深度分支可以只用有标注的子集来训练。

Q4:ANS 比简单的"推理时只跑 5 步动作"多了什么?只调推理不调训练不行吗?

只调推理确实能做到(就是消融中的"Decoupled train + Async infer"),但会出问题。如果训练时独立均匀采样 $t_O$ 和 $t_a$,大约一半的训练样本会落在 $t_O < t_a$ 的区域,即视频比动作干净。而推理时视频噪声永远不低于动作噪声(因为视频步数更多、步长更小)。这些"推理不存在的配置"白白浪费了训练算力,更糟糕的是会让模型学到错误的条件分布。

消融数据直接说明了后果:Decoupled + Async 的 PSNR 只有 22.60,而 ANS 是 23.46;AbsRel 从 0.0430 恶化到 0.0349。成功率也从 67.2% 提高到 67.8%。ANS 的联合采样保证了训练时只见到推理时真正会遇到的噪声配置,消除了错配。

Q5:深度分支在推理时可以关掉,那加深度的意义在哪?

这恰恰是最有意思的发现。深度分支在推理时确实可以关掉(关掉后延迟不变,1033ms),但训练时的深度监督会"回灌"到共享的前 $N-M$ 层。这些层同时服务于主分支和深度分支,深度监督迫使它们学到更好的空间特征表示。即使推理时不显式输出深度图,这些更好的空间特征仍然在帮助视频生成和动作预测。

消融证据:去掉深度(No depth)成功率 63.0%,加上交错深度分支后升至 67.8%,纯粹是训练时深度监督带来的策略提升。这说明 3D 理解是策略质量的隐性推动力。

Q6:Beta(1.5, 1) 分布在 ANS 里起什么作用?为什么不用均匀分布?

在 ANS 的联合采样公式里,$t_O = t_a + (1-t_a) \cdot b$,$b \sim \text{Beta}(1.5, 1)$。这个 Beta 分布的均值约 0.6,偏向较大值。效果是:给定动作噪声 $t_a$ 后,视频噪声 $t_O$ 被推向 $[t_a, 1]$ 区间的偏高位置。

物理含义是:视频通常比动作需要更多去噪步,所以在大多数训练样本里,视频应该比动作"更吵"。如果用均匀分布 $b \sim \text{U}(0,1)$,$t_O$ 会均匀分布在 $[t_a, 1]$ 里,但推理时视频实际以更大的步长去噪,分布偏向高噪声端。Beta(1.5, 1) 更好地拟合了这个推理时的真实分布。

Q7:X-WAM 用的是 Wan2.2-T2V-5B,为什么不用更大的模型(比如 DreamZero 的 14B I2V)?

论文没有直接说明,但可以推测几个原因。(1) X-WAM 是 T2V(文本到视频)而非 I2V(图像到视频),架构选择本身不同。(2) 5B 模型在保持实时性(1033ms 动作延迟)方面更可行,14B 模型的裸推理需要数秒。(3) X-WAM 加了深度分支(复制最后 M 层),总参数量可能接近 6-7B。(4) 在 RoboCasa 上 5B 的 X-WAM(79.2%)已超过 DreamZero 的 14B(62.4%),说明模型并非越大越好,架构设计(4D + ANS)比单纯堆参数更有效。

Q8:1033ms 的动作延迟对实时控制够快吗?

X-WAM 每次输出 $K=32$ 个动作,覆盖约 8 帧视频的时间跨度。如果视频帧率是 4 Hz(每 250ms 一帧),那 8 帧对应 2 秒。用 1033ms 解码 2 秒的动作序列,在动作开始执行前确实有约 1 秒的延迟,但一旦开始就可以连续执行 2 秒。论文还提到在真实机器人上实现了"real-time execution deployment",说明 chunk 间的流水线化(边执行边解码下一个 chunk)使得有效控制频率足够用。

对比:同步推理(25步全走完)需要 4665ms,那真的没法用了。ANS 的 4.5 倍加速是使 WAM 走向实用的关键一步。

Q9:为什么加了深度监督以后策略成功率也涨了?背后的机制是什么?

论文给了实验证据,但没有深挖机制。一个合理的解释是,深度监督迫使模型的共享层(前 $N-M$ 层)学到对 3D 几何敏感的特征。这些特征不只对深度预测有用,它们还提供了更好的物体位置、空间关系和遮挡关系的理解,直接帮助动作预测。

以"把杯子放到架子上"为例,模型需要理解杯子和架子之间的三维距离与相对方向。如果只在 2D 像素上学习,对深度的判断会很模糊。加了深度监督后,模型被迫学会精确的空间距离感,动作预测因此更准确。这也解释了为什么端到端深度比后挂 DA3 更好:联合学习让空间理解和动作预测相互增强,而后挂方案是两个独立模型,没有信息回流。

Q10:X-WAM 什么时候会失效?最薄弱的假设是什么?

有几个潜在弱点。(1) 静态/动态相机假设:X-WAM 把相机分为"固定三脚架"和"腕部相机"两类,腕部相机位姿通过末端执行器位姿和固定的手眼标定矩阵推算。如果相机安装位置不属于这两类(比如可移动的外部相机),假设就不成立。(2) 短时域限制:一次预测 8 帧视频 + 32 个动作,长序列多步操作需要反复自回归调用,误差可能累积。(3) 仿真-真实迁移:核心消融都在 RoboCasa 仿真里做的,真实世界的验证只有耳机包装一个场景;仿真里 PSNR/SSIM 好看,不等于真实环境下感知也鲁棒。(4) 深度 GT 依赖:训练深度分支需要深度 ground truth,仿真免费提供,真实数据则要么用 DA3 等模型估计(引入噪声),要么需要 RGB-D 相机(硬件限制)。