Fast-WAM 阅读笔记

Fast-WAM: Do World Action Models Need Test-time Future Imagination? — Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao, 2026

2026-06-02 · 原文 · PDF

摘要

这篇论文研究的是一个基础问题：World Action Model（WAM）在推理时到底需不需要"想象未来"？

WAM 是一类新兴的机器人控制模型。与普通 VLA（看图出动作）不同，它会先在脑子里"脑补"未来几帧画面，再根据想象出来的未来决定怎么动。听起来很合理，但代价是推理极慢，因为要跑好几轮视频去噪才能生成未来帧。

作者提出了 Fast-WAM：训练时保留"脑补未来"的视频联合训练目标，让模型学到物理直觉；推理时直接跳过未来生成，一个前向传播就出动作。核心发现是，视频联合训练对性能的贡献远大于推理时的未来想象。Fast-WAM 在 LIBERO 和 RoboTwin 两个仿真基准上达到 SOTA 水平，真实世界叠毛巾任务上也很能打，推理延迟仅 190ms，比 imagine-then-execute 的 WAM 快 4 倍以上。

有意思的是，去掉推理时的未来想象只掉一点点分，但去掉训练时的视频联合训练，性能直接崩盘。

一、Motivation

现实痛点：脑补未来太慢了

想象一个场景：你让机器人叠毛巾。它需要一边看着当前画面，一边在脑子里"想象"接下来毛巾会怎么变形、手该怎么移。现在主流的 WAM 就是这么做的：先用视频扩散模型生成几帧未来画面，再根据这些画面预测动作。这种"先想象再行动"的范式叫 imagine-then-execute。

问题在于，生成未来视频需要反复迭代去噪（diffusion denoising），一张未来帧要跑十几步才出来。结果就是推理延迟高达 810ms（Fast-WAM-IDM 变体的实测数据），机器人反应像慢动作。对于需要实时闭环控制的任务，比如叠毛巾、抓滑动物体，这个延迟是致命的。

前人卡在哪：两个好处被绑死了

WAM 的收益可能来自两个不同的地方：(1) 训练时的视频预测目标让模型学到了更好的物理表征；(2) 推理时生成的未来帧给动作预测提供了额外的前瞻信息。但之前的 WAM 把这两件事绑在了一起。同一个模型既在训练时学视频预测，又在推理时生成未来帧，根本分不清到底是哪个在贡献性能。

作者的切入点：拆开来看

作者的直觉是：也许视频预测的主要价值不在于推理时真的"看到"未来，而在于训练时让模型内部建立起对物理世界的理解。如果是这样，推理时完全可以跳过未来生成，只保留训练时的视频联合训练信号。为了验证这个假说，他们设计了一个能拆分这两个因素的架构（Fast-WAM），以及一组控制变量实验。

二、现存问题

问题 1：推理太慢。现有 WAM 需要迭代视频去噪来生成未来帧，导致单次推理延迟 580-810ms，无法实时控制。

问题 2：收益来源不清。训练目标（视频预测损失塑造表征）和推理机制（显式生成未来帧）的贡献被耦合在一起，无法独立分析谁更重要。

问题 3：依赖 embodied pretraining。最强的 WAM（如 LingBot-VA、Motus）需要在大规模机器人数据上做 embodied pretraining，数据获取成本高；没有预训练的版本性能大幅下降。

问题 4：设计选择缺乏公平对比。不同 WAM 使用不同骨干、不同训练配置，很难知道"联合去噪"和"先生成再预测"哪种范式更好，因为对比不控制变量。

四、方法详解

Figure 1: Three representative WAM paradigms

Figure 1：三种 WAM 范式对比。(A) 联合去噪；(B) 先生成视频再预测动作；(C) Fast-WAM — 训练时有视频分支，推理时只跑动作分支。

核心思路：训练时联合学，推理时只跑动作

Fast-WAM 的设计哲学可以一句话概括：把视频扩散模型当"训练时的教练"，而不是"推理时的预言机"。训练时，视频分支逼迫模型去理解物理世界的运动和交互规律，让视觉骨干学到"物理直觉"；推理时，直接用这个被视频训练信号塑造过的骨干编码当前帧，一个前向传播就出动作，不需要迭代去噪生成未来帧。

Figure 2a：Fast-WAM 架构。左侧是 Video DiT（视频分支），右侧是 Action DiT（动作分支），共享第一帧的 latent tokens 和 cross-attention 的语言嵌入。

架构：Mixture-of-Transformer

Fast-WAM 建立在预训练的视频扩散 Transformer（Wan2.2-5B 的 DiT）之上。整个模型是一个 Mixture-of-Transformer（MoT）架构，包含两个分支：

Video DiT（5B 参数）：预训练视频生成模型，用于处理视频 latent tokens。训练时处理当前帧 + 加噪的未来帧；推理时只处理当前帧。
Action DiT（1B 参数）：动作专家，架构与 Video DiT 相同但隐藏维度缩小（$d_a = 1024$）。处理动作 tokens 的去噪。

两个分支通过 shared attention 连接：共享对第一帧 clean latent tokens 的注意力访问，也共享对语言嵌入的 cross-attention。

输入 Token 的三类组织

输入被分成三组 token：

Clean first-frame tokens：当前观测帧的 VAE latent，是两个分支的共享视觉锚点
Noisy future video tokens：未来帧的加噪 latent，只在训练时出现，由 Video DiT 处理
Action tokens：动作序列的加噪版本，由 Action DiT 处理

Figure 2b: Training and inference attention masks

Figure 2b：训练和推理时的注意力掩码。关键设计：action tokens 不能看到 future video tokens，确保推理时去掉视频分支不影响动作生成。

注意力掩码：信息隔离的关键

这是 Fast-WAM 最精巧的设计。注意力掩码确保：

Future video tokens 之间可以双向注意力（在 Video DiT 内部），也能看到 clean first-frame tokens
Action tokens 之间可以双向注意力（在 Action DiT 内部），也能看到 clean first-frame tokens
Action tokens 不能看到 future video tokens
Clean first-frame tokens 不看任何其他 token（它是只读锚点）

为什么 action tokens 不能看 future video tokens？因为推理时根本没有 future video tokens。如果训练时 action 分支依赖了未来帧的信息，推理时去掉视频分支就会崩盘。这个掩码设计是"训练时学，推理时扔"能成立的保障。

训练目标：Flow Matching

两个分支都用 flow matching 训练。给定目标变量 $y$（动作 chunk 或未来视频 latent），采样高斯噪声 $\epsilon \sim \mathcal{N}(0, I)$ 和时间步 $t \in (0,1)$，构造插值样本：

$$y_t = (1 - t) \cdot y + t \cdot \epsilon$$

即在原始信号和纯噪声之间做线性插值，$t$ 越大噪声越多。

模型学习预测速度场，用标准 flow matching 损失：

$$\mathcal{L}_{\text{FM}}(y) = \mathbb{E}_{y, \epsilon, t} \left[ \| f_\theta(y_t, t, o, l) - (\epsilon - y) \|_2^2 \right]$$

模型输出的是"从当前加噪状态到纯噪声方向的速度"，训练目标是让这个预测速度尽可能接近真实的 $\epsilon - y$。

总训练损失是动作损失加上加权的视频损失：

$$\mathcal{L} = \mathcal{L}_{\text{act}} + \lambda \, \mathcal{L}_{\text{vid}}$$

$\mathcal{L}_{\text{act}}$ 负责学动作生成，$\mathcal{L}_{\text{vid}}$ 是视频预测的辅助目标。它不直接产出推理时的输出，而是塑造 Video DiT 的内部表征，让它编码出更有物理意义的 latent world representation。

推理时怎么跑

推理时极其简洁：只保留 clean first-frame tokens，送入 Video DiT 做一次前向传播得到 latent world representation $z(o, l)$，然后 Action DiT 在这个表征基础上做 10 步去噪生成动作 chunk（$H=32$ 步）。全程没有 future video tokens，没有视频去噪迭代，一个 pass 搞定。延迟 190ms vs. IDM 式 WAM 的 810ms。

控制变量：三个对照组

为了回答"收益来自训练还是推理"，作者在同一个骨干上做了三个变体：

Fast-WAM-Joint：模拟联合去噪范式（A），训练和推理时 action tokens 都能看到 video tokens
Fast-WAM-IDM：模拟因果式范式（B），先生成视频，action 条件化在生成的未来帧上
Fast-WAM w.o. video co-train：去掉视频损失 $\mathcal{L}_{\text{vid}}$，直接看视频联合训练本身值多少分

五、实验结果

主结果一句话

Fast-WAM 在 RoboTwin 上达到 91.8% 成功率、LIBERO 上 97.6%，不需要 embodied pretraining 就追平甚至超过了需要预训练的 SOTA WAM（LingBot-VA 92.2%、Motus 97.7%）。推理延迟 190ms，比 IDM 式 WAM（810ms）快 4.3 倍。

关键消融：视频联合训练是主力

这是全文最重要的实验发现。在 RoboTwin 上：

Fast-WAM（无未来想象） vs. Fast-WAM-Joint（有未来想象）：91.8% vs. 90.6%，差距 1.2 个点
Fast-WAM（有视频联合训练） vs. Fast-WAM w.o. video co-train：91.8% vs. 83.8%，差距 8.0 个点

去掉推理时的未来想象只掉 1 点多，去掉训练时的视频联合训练掉 8 点。这说明 WAM 性能的大头来自训练时的视频预测目标，而不是推理时真的去"看"未来帧。

LIBERO 上也是类似的趋势：Fast-WAM 97.6% vs. Fast-WAM-Joint 98.5%（差 0.9），Fast-WAM vs. w.o. co-train 93.5%（差 4.1），视频联合训练造成的性能差距远大于推理范式的差距。

真实世界：叠毛巾任务

Figure 3：真实世界叠毛巾任务，使用 Galaxea R1 Lite 平台，60 小时遥操作示教数据。

Figure 4：左图为成功率 vs. 完成时间散点图（越左上越好）；右图为推理延迟对比。

真实世界叠毛巾任务进一步验证了论文的核心发现：

Fast-WAM 的推理延迟 190ms，比 Fast-WAM-Joint（580ms）快 3 倍，比 Fast-WAM-IDM（810ms）快 4.3 倍
所有带视频联合训练的 Fast-WAM 变体都大幅超过了不带预训练的 π_0.5，说明 WAM 式视频联合训练是数据高效的替代方案
Fast-WAM w.o. video co-train 成功率仅 10%，完成时间最长，视频联合训练在真实世界上是不可或缺的

六、总结

1. Fast-WAM 用一个简洁的架构证明了：WAM 的性能主要来自训练时的视频预测目标塑造的物理表征，而非推理时显式生成未来帧。

2. 这打开了一个新的设计空间：用视频模型作为"训练时教练"来增强策略表征，而不必在推理时承受视频生成的计算开销。

3. 未解的问题：更大规模的预训练数据和更大的模型会不会改变这个结论？如果视频生成质量足够好（接近真实），推理时的未来想象是否会变得更有价值？

七、Insight

视频预测的真正价值不在"预测"本身，而在它逼出来的表征。这跟对比学习的故事很像：对比学习的价值不在推理时真的去做对比，而在训练时对比损失塑造了有判别力的特征空间。WAM 里的视频预测损失扮演了同样的角色，它是训练时的表征塑造信号，不是推理时的功能性组件。

八、启发

迁移：辅助目标 + 推理时剪枝

"训练时学更多，推理时用更少"这个模式可以迁移到很多场景。比如在 starVLA 里，可以在训练时加一个视频预测头（或光流预测、深度预测），让视觉编码器学到更丰富的时空表征，推理时直接扔掉这些头只跑动作。Fast-WAM 证明了"训练时辅助目标 + 推理时剪枝"这条路线是可行的，掉分极少。值得一试：给现有 VLA 加一个轻量视频预测 loss 作为辅助目标。

反转：不一定需要 embodied pretraining

Fast-WAM 没有用任何 embodied pretraining，但在 RoboTwin 上达到 91.8%，仅比使用了大规模预训练的 LingBot-VA（92.2%）低 0.4 个点。这说明通用视频模型（Wan2.2）的视频先验加上下游任务的视频联合训练，可能是 embodied pretraining 的高效替代。对数据资源有限的团队来说，这是一条值得尝试的路。

九、关键引用

[Abstract]

"We disentangle the role of video modeling during training from explicit future generation during inference by proposing Fast-WAM, a WAM architecture that retains video co-training during training but skips future prediction at test time."

译：我们把"训练时的视频建模"和"推理时的未来生成"拆开来看。Fast-WAM 训练时保留视频联合训练，推理时跳过未来预测。

[Section 1, Introduction]

"The effectiveness of WAMs may stem from two distinct sources: (1) the video prediction objective during training, which may help the model acquire stronger physical priors and action-conditioned representations, and (2) explicit future generation during inference, which may provide additional foresight for action prediction."

译：WAM 的有效性可能来自两个不同的源头：(1) 训练时的视频预测目标帮模型获得更强的物理先验；(2) 推理时的显式未来生成给动作预测提供额外的前瞻信息。

[Section 4.3.2]

"This pattern suggests that the main benefit of WAM-style training may lie less in whether, or how, future imagination is performed at test time, and more in the video prediction objective used to shape world-grounded representations during training."

译：这个规律说明 WAM 式训练的主要收益不在于推理时怎么做未来想象，而在于训练时的视频预测目标塑造了接地的世界表征。

[Section 4.3.3]

"In terms of runtime, Fast-WAM retains low inference latency (190 ms), whereas the imagine-then-execute variants are substantially slower, especially Fast-WAM-IDM at 810 ms."

译：Fast-WAM 推理延迟 190ms，而 imagine-then-execute 变体慢得多，尤其 IDM 式要 810ms。

十、Q&A

Q1：Fast-WAM 的模型整体长什么样？输入输出分别是什么？

模型是一个 Mixture-of-Transformer（MoT）架构，由两个并行的 DiT 分支组成：Video DiT（5B 参数，来自 Wan2.2-5B）和 Action DiT（1B 参数），总共 6B。输入是当前观测帧（经 VAE 编码为 latent tokens）和语言指令（T5 编码为 embeddings）。输出是 action chunk，即一个 $H=32$ 步的动作序列。两个分支通过 shared attention 共享第一帧的 latent tokens 和语言嵌入的 cross-attention。

Q2：为什么 action tokens 不能 attend to future video tokens？这个设计有什么深意？

这是保证"训练-推理一致性"的关键。如果训练时 action tokens 能看到 future video tokens，action 分支就会学习依赖未来帧信息来做决策。但推理时 future video tokens 被整个去掉，这种依赖就断了，性能随之崩塌。通过注意力掩码隔离，action 分支在训练时就"习惯了"只看当前帧和语言指令做决策，推理时去掉视频分支也不会出问题。视频分支的作用纯粹是通过训练损失塑造 Video DiT 的内部表征。

Q3：Fast-WAM 训练时用了什么数据？规模多大？

论文没有用任何 embodied pretraining 数据。在每个 benchmark 上直接从任务演示数据训练：LIBERO 每个 suite 500 条演示（共 10 个任务），训练 20k 步；RoboTwin 用 2,500 条 clean 场景演示 + 25,000 条随机化演示（50+ 任务），训练 30k 步；真实世界叠毛巾用 60 小时遥操作数据。视频帧经过 4x 时间下采样得到每个 chunk 9 帧，多摄像头图像拼接成一张后送入 VAE。

Q4：Flow matching 和 DDPM 有什么区别？为什么选 flow matching？

Flow matching 学习的是从噪声到数据的连续速度场（velocity field），而 DDPM 学习的是每一步的噪声预测。两者在理论上可以等价，但 flow matching 有两个实际优势：(1) 可以用更少的采样步数（论文用 10 步 CFG 推理），因为速度场的路径更直；(2) 与 Wan2.2 的原生训练目标一致，方便复用预训练权重。论文直接继承了 Wan2.2 的 logit-normal noise schedule。

Q5：去掉视频联合训练后性能崩得最厉害的地方在哪？

在 LIBERO 上，Spatial 子集从 98.2% 掉到 89.2%（-9 点），Long 子集从 95.2% 掉到 90.0%（-5.2 点）。Spatial 测试空间推理能力（如"把东西放到另一个东西左边"），Long 测试长程规划。说明视频联合训练对空间理解和长期规划的表征塑造最关键。在真实世界叠毛巾任务上更极端：成功率从约 90% 直接掉到 10%。

Q6：Fast-WAM 的 latent world representation z(o, l) 到底是什么？

$z(o, l)$ 是 Video DiT 对当前观测帧的 clean latent tokens 做完一轮前向传播后产出的隐状态。由于 Video DiT 在训练时被视频预测损失"调教"过，它处理当前帧时会隐式编码出对物理世界演变的预期。虽然不显式生成未来帧，内部表征里已经蕴含了"未来会怎样"的信息。Action DiT 正是基于这个被物理直觉增强过的表征来预测动作。可以理解为，Video DiT 把"想象未来"压缩成了一个向量，而不是真的画出来。

Q7：Fast-WAM 和 VPP、UVA 这些减少推理视频生成的工作有什么本质区别？

VPP 和 UVA 主要是工程上的优化，目的是减少或跳过推理时的视频解码步骤。Fast-WAM 的核心贡献不是"怎么跳过"，而是通过控制实验回答了一个更根本的科学问题："训练时的视频目标 vs. 推理时的未来想象，哪个更重要？"为此，Fast-WAM 设计了 Joint、IDM、no-co-train 三个变体在同一骨干、同一配置下对比，这种控制变量设计是 VPP/UVA 没做的。

Q8：如果视频生成质量大幅提升（比如一步就能生成高质量视频），推理时的未来想象会不会变得更有价值？

这是一个开放问题，论文没有直接回答。但从数据来看，Fast-WAM-Joint 和 Fast-WAM-IDM 在训练时已经有了高质量的 ground-truth 未来帧做条件（而非生成的），推理时也做了完整的未来想象，但只比 Fast-WAM 高 1 个点左右。这暗示即使视频生成质量完美，推理时的未来想象带来的边际增益也可能有限。当然，更大规模的模型和更复杂的任务可能改变这个结论，作者在 Future Work 里也提到了这一点。

Q9：Fast-WAM 不需要 embodied pretraining 就能达到接近 SOTA 的性能，这说明什么？

这说明通用视频模型（Wan2.2）的预训练权重加上下游任务的视频联合训练，可能是大规模机器人数据预训练的高效替代。Wan2.2 在海量网络视频上学到了丰富的物理世界先验（物体运动、遮挡、变形等），这些先验通过 Fast-WAM 的视频联合训练目标被"迁移"到了机器人操控场景。对数据资源有限的实验室来说是个好消息：不需要花巨大成本收集机器人预训练数据，用现成的视频基础模型就能获得很强的物理表征。

Q10：论文的实验设计有什么薄弱假设？

几个值得注意的点：(1) 所有变体都只用了单步 action chunk 预测，没有外层 autoregressive rollout，简化了比较但也限制了对长程任务的分析；(2) 模型规模固定在 6B，没有做 scaling 实验，更大或更小的模型上结论是否成立尚不确定；(3) 真实世界只测了叠毛巾一个任务，且 π_0.5（有 embodied pretraining）依然最强，说明在某些场景下 pretraining 的优势尚未被完全取代；(4) 视频联合训练的权重 λ 的影响没有详细消融。

摘要