Fast-WAM 阅读笔记

Fast-WAM: Do World Action Models Need Test-time Future Imagination? — Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao, 2026

2026-06-02 · 原文 · PDF

摘要

这篇论文研究的是一个基础问题:World Action Model(WAM)在推理时到底需不需要"想象未来"?

WAM 是一类新兴的机器人控制模型。与普通 VLA(看图出动作)不同,它会先在脑子里"脑补"未来几帧画面,再根据想象出来的未来决定怎么动。听起来很合理,但代价是推理极慢,因为要跑好几轮视频去噪才能生成未来帧。

作者提出了 Fast-WAM:训练时保留"脑补未来"的视频联合训练目标,让模型学到物理直觉;推理时直接跳过未来生成,一个前向传播就出动作。核心发现是,视频联合训练对性能的贡献远大于推理时的未来想象。Fast-WAM 在 LIBERO 和 RoboTwin 两个仿真基准上达到 SOTA 水平,真实世界叠毛巾任务上也很能打,推理延迟仅 190ms,比 imagine-then-execute 的 WAM 快 4 倍以上。

有意思的是,去掉推理时的未来想象只掉一点点分,但去掉训练时的视频联合训练,性能直接崩盘。

一、Motivation

现实痛点:脑补未来太慢了

想象一个场景:你让机器人叠毛巾。它需要一边看着当前画面,一边在脑子里"想象"接下来毛巾会怎么变形、手该怎么移。现在主流的 WAM 就是这么做的:先用视频扩散模型生成几帧未来画面,再根据这些画面预测动作。这种"先想象再行动"的范式叫 imagine-then-execute。

问题在于,生成未来视频需要反复迭代去噪(diffusion denoising),一张未来帧要跑十几步才出来。结果就是推理延迟高达 810ms(Fast-WAM-IDM 变体的实测数据),机器人反应像慢动作。对于需要实时闭环控制的任务,比如叠毛巾、抓滑动物体,这个延迟是致命的。

前人卡在哪:两个好处被绑死了

WAM 的收益可能来自两个不同的地方:(1) 训练时的视频预测目标让模型学到了更好的物理表征;(2) 推理时生成的未来帧给动作预测提供了额外的前瞻信息。但之前的 WAM 把这两件事绑在了一起。同一个模型既在训练时学视频预测,又在推理时生成未来帧,根本分不清到底是哪个在贡献性能。

作者的切入点:拆开来看

作者的直觉是:也许视频预测的主要价值不在于推理时真的"看到"未来,而在于训练时让模型内部建立起对物理世界的理解。如果是这样,推理时完全可以跳过未来生成,只保留训练时的视频联合训练信号。为了验证这个假说,他们设计了一个能拆分这两个因素的架构(Fast-WAM),以及一组控制变量实验。

二、现存问题

问题 1:推理太慢。现有 WAM 需要迭代视频去噪来生成未来帧,导致单次推理延迟 580-810ms,无法实时控制。
问题 2:收益来源不清。训练目标(视频预测损失塑造表征)和推理机制(显式生成未来帧)的贡献被耦合在一起,无法独立分析谁更重要。
问题 3:依赖 embodied pretraining。最强的 WAM(如 LingBot-VA、Motus)需要在大规模机器人数据上做 embodied pretraining,数据获取成本高;没有预训练的版本性能大幅下降。
问题 4:设计选择缺乏公平对比。不同 WAM 使用不同骨干、不同训练配置,很难知道"联合去噪"和"先生成再预测"哪种范式更好,因为对比不控制变量。

四、方法详解

Figure 1: Three representative WAM paradigms

Figure 1:三种 WAM 范式对比。(A) 联合去噪;(B) 先生成视频再预测动作;(C) Fast-WAM — 训练时有视频分支,推理时只跑动作分支。

核心思路:训练时联合学,推理时只跑动作

Fast-WAM 的设计哲学可以一句话概括:把视频扩散模型当"训练时的教练",而不是"推理时的预言机"。训练时,视频分支逼迫模型去理解物理世界的运动和交互规律,让视觉骨干学到"物理直觉";推理时,直接用这个被视频训练信号塑造过的骨干编码当前帧,一个前向传播就出动作,不需要迭代去噪生成未来帧。

Figure 2a: Fast-WAM architecture

Figure 2a:Fast-WAM 架构。左侧是 Video DiT(视频分支),右侧是 Action DiT(动作分支),共享第一帧的 latent tokens 和 cross-attention 的语言嵌入。

架构:Mixture-of-Transformer

Fast-WAM 建立在预训练的视频扩散 Transformer(Wan2.2-5B 的 DiT)之上。整个模型是一个 Mixture-of-Transformer(MoT)架构,包含两个分支:

两个分支通过 shared attention 连接:共享对第一帧 clean latent tokens 的注意力访问,也共享对语言嵌入的 cross-attention。

输入 Token 的三类组织

输入被分成三组 token:

  1. Clean first-frame tokens:当前观测帧的 VAE latent,是两个分支的共享视觉锚点
  2. Noisy future video tokens:未来帧的加噪 latent,只在训练时出现,由 Video DiT 处理
  3. Action tokens:动作序列的加噪版本,由 Action DiT 处理
Figure 2b: Training and inference attention masks

Figure 2b:训练和推理时的注意力掩码。关键设计:action tokens 不能看到 future video tokens,确保推理时去掉视频分支不影响动作生成。

注意力掩码:信息隔离的关键

这是 Fast-WAM 最精巧的设计。注意力掩码确保:

为什么 action tokens 不能看 future video tokens?因为推理时根本没有 future video tokens。如果训练时 action 分支依赖了未来帧的信息,推理时去掉视频分支就会崩盘。这个掩码设计是"训练时学,推理时扔"能成立的保障。

训练目标:Flow Matching

两个分支都用 flow matching 训练。给定目标变量 $y$(动作 chunk 或未来视频 latent),采样高斯噪声 $\epsilon \sim \mathcal{N}(0, I)$ 和时间步 $t \in (0,1)$,构造插值样本:

$$y_t = (1 - t) \cdot y + t \cdot \epsilon$$

即在原始信号和纯噪声之间做线性插值,$t$ 越大噪声越多。

模型学习预测速度场,用标准 flow matching 损失:

$$\mathcal{L}_{\text{FM}}(y) = \mathbb{E}_{y, \epsilon, t} \left[ \| f_\theta(y_t, t, o, l) - (\epsilon - y) \|_2^2 \right]$$

模型输出的是"从当前加噪状态到纯噪声方向的速度",训练目标是让这个预测速度尽可能接近真实的 $\epsilon - y$。

总训练损失是动作损失加上加权的视频损失:

$$\mathcal{L} = \mathcal{L}_{\text{act}} + \lambda \, \mathcal{L}_{\text{vid}}$$

$\mathcal{L}_{\text{act}}$ 负责学动作生成,$\mathcal{L}_{\text{vid}}$ 是视频预测的辅助目标。它不直接产出推理时的输出,而是塑造 Video DiT 的内部表征,让它编码出更有物理意义的 latent world representation。

推理时怎么跑

推理时极其简洁:只保留 clean first-frame tokens,送入 Video DiT 做一次前向传播得到 latent world representation $z(o, l)$,然后 Action DiT 在这个表征基础上做 10 步去噪生成动作 chunk($H=32$ 步)。全程没有 future video tokens,没有视频去噪迭代,一个 pass 搞定。延迟 190ms vs. IDM 式 WAM 的 810ms。

控制变量:三个对照组

为了回答"收益来自训练还是推理",作者在同一个骨干上做了三个变体:

五、实验结果

主结果一句话

Fast-WAM 在 RoboTwin 上达到 91.8% 成功率、LIBERO 上 97.6%,不需要 embodied pretraining 就追平甚至超过了需要预训练的 SOTA WAM(LingBot-VA 92.2%、Motus 97.7%)。推理延迟 190ms,比 IDM 式 WAM(810ms)快 4.3 倍。

RoboTwin 主要结果对比(平均成功率 %) 越长越好;标 ✓ 表示使用了 embodied pretraining LingBot-VA ✓ 92.2 Fast-WAM (Ours) 91.8 Fast-WAM-IDM 91.3 Fast-WAM-Joint 90.6 Motus ✓ 87.8 Fast-WAM w.o. co-train 83.8 Motus (no PT) 77.3 π₀ ✓ 62.2 Source: Table 1 of the paper. ✓ = with embodied pretraining.

关键消融:视频联合训练是主力

这是全文最重要的实验发现。在 RoboTwin 上:

去掉推理时的未来想象只掉 1 点多,去掉训练时的视频联合训练掉 8 点。这说明 WAM 性能的大头来自训练时的视频预测目标,而不是推理时真的去"看"未来帧。

LIBERO 上也是类似的趋势:Fast-WAM 97.6% vs. Fast-WAM-Joint 98.5%(差 0.9),Fast-WAM vs. w.o. co-train 93.5%(差 4.1),视频联合训练造成的性能差距远大于推理范式的差距。

消融对比:去掉什么掉多少分? RoboTwin LIBERO 去掉推理时未来想象 -1.2 pts 去掉训练时视频联合训练 -8.0 pts 去掉推理时未来想象 -0.9 pts 去掉训练时视频联合训练 -4.1 pts bar 长度正比于性能下降幅度;红色 = 视频联合训练的贡献远大于推理时未来想象 Source: Table 1 (RoboTwin) & Table 2 (LIBERO). 基准: Fast-WAM 91.8% / 97.6%. 去掉推理想象 = Fast-WAM vs. best imagine-then-execute variant; 去掉训练 = Fast-WAM vs. w.o. co-train.

真实世界:叠毛巾任务

Figure 3: Real-world towel-folding task

Figure 3:真实世界叠毛巾任务,使用 Galaxea R1 Lite 平台,60 小时遥操作示教数据。

Figure 4: Real-world results

Figure 4:左图为成功率 vs. 完成时间散点图(越左上越好);右图为推理延迟对比。

真实世界叠毛巾任务进一步验证了论文的核心发现:

推理延迟对比(ms,越短越好) 180 π₀.₅ 190 Fast-WAM 190 w.o. video Fast-WAM 580 Joint Fast-WAM 810 IDM Fast-WAM Source: Figure 4 (right panel). 测试平台: NVIDIA RTX 5090D V2 32GB.

六、总结

1. Fast-WAM 用一个简洁的架构证明了:WAM 的性能主要来自训练时的视频预测目标塑造的物理表征,而非推理时显式生成未来帧。

2. 这打开了一个新的设计空间:用视频模型作为"训练时教练"来增强策略表征,而不必在推理时承受视频生成的计算开销。

3. 未解的问题:更大规模的预训练数据和更大的模型会不会改变这个结论?如果视频生成质量足够好(接近真实),推理时的未来想象是否会变得更有价值?

七、Insight

视频预测的真正价值不在"预测"本身,而在它逼出来的表征。这跟对比学习的故事很像:对比学习的价值不在推理时真的去做对比,而在训练时对比损失塑造了有判别力的特征空间。WAM 里的视频预测损失扮演了同样的角色,它是训练时的表征塑造信号,不是推理时的功能性组件。

八、启发

迁移:辅助目标 + 推理时剪枝

"训练时学更多,推理时用更少"这个模式可以迁移到很多场景。比如在 starVLA 里,可以在训练时加一个视频预测头(或光流预测、深度预测),让视觉编码器学到更丰富的时空表征,推理时直接扔掉这些头只跑动作。Fast-WAM 证明了"训练时辅助目标 + 推理时剪枝"这条路线是可行的,掉分极少。值得一试:给现有 VLA 加一个轻量视频预测 loss 作为辅助目标。

反转:不一定需要 embodied pretraining

Fast-WAM 没有用任何 embodied pretraining,但在 RoboTwin 上达到 91.8%,仅比使用了大规模预训练的 LingBot-VA(92.2%)低 0.4 个点。这说明通用视频模型(Wan2.2)的视频先验加上下游任务的视频联合训练,可能是 embodied pretraining 的高效替代。对数据资源有限的团队来说,这是一条值得尝试的路。

九、关键引用

[Abstract]

"We disentangle the role of video modeling during training from explicit future generation during inference by proposing Fast-WAM, a WAM architecture that retains video co-training during training but skips future prediction at test time."

译:我们把"训练时的视频建模"和"推理时的未来生成"拆开来看。Fast-WAM 训练时保留视频联合训练,推理时跳过未来预测。

[Section 1, Introduction]

"The effectiveness of WAMs may stem from two distinct sources: (1) the video prediction objective during training, which may help the model acquire stronger physical priors and action-conditioned representations, and (2) explicit future generation during inference, which may provide additional foresight for action prediction."

译:WAM 的有效性可能来自两个不同的源头:(1) 训练时的视频预测目标帮模型获得更强的物理先验;(2) 推理时的显式未来生成给动作预测提供额外的前瞻信息。

[Section 4.3.2]

"This pattern suggests that the main benefit of WAM-style training may lie less in whether, or how, future imagination is performed at test time, and more in the video prediction objective used to shape world-grounded representations during training."

译:这个规律说明 WAM 式训练的主要收益不在于推理时怎么做未来想象,而在于训练时的视频预测目标塑造了接地的世界表征。

[Section 4.3.3]

"In terms of runtime, Fast-WAM retains low inference latency (190 ms), whereas the imagine-then-execute variants are substantially slower, especially Fast-WAM-IDM at 810 ms."

译:Fast-WAM 推理延迟 190ms,而 imagine-then-execute 变体慢得多,尤其 IDM 式要 810ms。

十、Q&A

Q1:Fast-WAM 的模型整体长什么样?输入输出分别是什么?

模型是一个 Mixture-of-Transformer(MoT)架构,由两个并行的 DiT 分支组成:Video DiT(5B 参数,来自 Wan2.2-5B)和 Action DiT(1B 参数),总共 6B。输入是当前观测帧(经 VAE 编码为 latent tokens)和语言指令(T5 编码为 embeddings)。输出是 action chunk,即一个 $H=32$ 步的动作序列。两个分支通过 shared attention 共享第一帧的 latent tokens 和语言嵌入的 cross-attention。

Q2:为什么 action tokens 不能 attend to future video tokens?这个设计有什么深意?

这是保证"训练-推理一致性"的关键。如果训练时 action tokens 能看到 future video tokens,action 分支就会学习依赖未来帧信息来做决策。但推理时 future video tokens 被整个去掉,这种依赖就断了,性能随之崩塌。通过注意力掩码隔离,action 分支在训练时就"习惯了"只看当前帧和语言指令做决策,推理时去掉视频分支也不会出问题。视频分支的作用纯粹是通过训练损失塑造 Video DiT 的内部表征。

Q3:Fast-WAM 训练时用了什么数据?规模多大?

论文没有用任何 embodied pretraining 数据。在每个 benchmark 上直接从任务演示数据训练:LIBERO 每个 suite 500 条演示(共 10 个任务),训练 20k 步;RoboTwin 用 2,500 条 clean 场景演示 + 25,000 条随机化演示(50+ 任务),训练 30k 步;真实世界叠毛巾用 60 小时遥操作数据。视频帧经过 4x 时间下采样得到每个 chunk 9 帧,多摄像头图像拼接成一张后送入 VAE。

Q4:Flow matching 和 DDPM 有什么区别?为什么选 flow matching?

Flow matching 学习的是从噪声到数据的连续速度场(velocity field),而 DDPM 学习的是每一步的噪声预测。两者在理论上可以等价,但 flow matching 有两个实际优势:(1) 可以用更少的采样步数(论文用 10 步 CFG 推理),因为速度场的路径更直;(2) 与 Wan2.2 的原生训练目标一致,方便复用预训练权重。论文直接继承了 Wan2.2 的 logit-normal noise schedule。

Q5:去掉视频联合训练后性能崩得最厉害的地方在哪?

在 LIBERO 上,Spatial 子集从 98.2% 掉到 89.2%(-9 点),Long 子集从 95.2% 掉到 90.0%(-5.2 点)。Spatial 测试空间推理能力(如"把东西放到另一个东西左边"),Long 测试长程规划。说明视频联合训练对空间理解和长期规划的表征塑造最关键。在真实世界叠毛巾任务上更极端:成功率从约 90% 直接掉到 10%。

Q6:Fast-WAM 的 latent world representation z(o, l) 到底是什么?

$z(o, l)$ 是 Video DiT 对当前观测帧的 clean latent tokens 做完一轮前向传播后产出的隐状态。由于 Video DiT 在训练时被视频预测损失"调教"过,它处理当前帧时会隐式编码出对物理世界演变的预期。虽然不显式生成未来帧,内部表征里已经蕴含了"未来会怎样"的信息。Action DiT 正是基于这个被物理直觉增强过的表征来预测动作。可以理解为,Video DiT 把"想象未来"压缩成了一个向量,而不是真的画出来。

Q7:Fast-WAM 和 VPP、UVA 这些减少推理视频生成的工作有什么本质区别?

VPP 和 UVA 主要是工程上的优化,目的是减少或跳过推理时的视频解码步骤。Fast-WAM 的核心贡献不是"怎么跳过",而是通过控制实验回答了一个更根本的科学问题:"训练时的视频目标 vs. 推理时的未来想象,哪个更重要?"为此,Fast-WAM 设计了 Joint、IDM、no-co-train 三个变体在同一骨干、同一配置下对比,这种控制变量设计是 VPP/UVA 没做的。

Q8:如果视频生成质量大幅提升(比如一步就能生成高质量视频),推理时的未来想象会不会变得更有价值?

这是一个开放问题,论文没有直接回答。但从数据来看,Fast-WAM-Joint 和 Fast-WAM-IDM 在训练时已经有了高质量的 ground-truth 未来帧做条件(而非生成的),推理时也做了完整的未来想象,但只比 Fast-WAM 高 1 个点左右。这暗示即使视频生成质量完美,推理时的未来想象带来的边际增益也可能有限。当然,更大规模的模型和更复杂的任务可能改变这个结论,作者在 Future Work 里也提到了这一点。

Q9:Fast-WAM 不需要 embodied pretraining 就能达到接近 SOTA 的性能,这说明什么?

这说明通用视频模型(Wan2.2)的预训练权重加上下游任务的视频联合训练,可能是大规模机器人数据预训练的高效替代。Wan2.2 在海量网络视频上学到了丰富的物理世界先验(物体运动、遮挡、变形等),这些先验通过 Fast-WAM 的视频联合训练目标被"迁移"到了机器人操控场景。对数据资源有限的实验室来说是个好消息:不需要花巨大成本收集机器人预训练数据,用现成的视频基础模型就能获得很强的物理表征。

Q10:论文的实验设计有什么薄弱假设?

几个值得注意的点:(1) 所有变体都只用了单步 action chunk 预测,没有外层 autoregressive rollout,简化了比较但也限制了对长程任务的分析;(2) 模型规模固定在 6B,没有做 scaling 实验,更大或更小的模型上结论是否成立尚不确定;(3) 真实世界只测了叠毛巾一个任务,且 π0.5(有 embodied pretraining)依然最强,说明在某些场景下 pretraining 的优势尚未被完全取代;(4) 视频联合训练的权重 λ 的影响没有详细消融。