WAM 论文深度横向对比

10 篇 World Action Model 论文的多维度分析

2026-06-04 · 基于 PAD / UWM / DreamZero / Cosmos Policy / X-WAM / GigaWorld / Fast-WAM / DiT4DiT / LingBot-VA / Motus 阅读笔记整理

〇、研究脉络：从联合去噪到多流加速

WAM 的故事可以分成三个阶段来看。

第一阶段：概念验证（2024.11）

PAD 是起点。它提出了一个简单但有力的假设：既然图像生成和动作生成在技术上都是扩散去噪，那就把它们塞进同一个 DiT 里联合处理。结果验证了两件事：（1）图像预测确实能大幅提升策略性能（去掉后暴跌 28.9 个百分点）；（2）联合去噪比两阶段方案更优。PAD 在自己的 Franka Panda 平台上做到了 72% 成功率，但局限也很明显：所有模态共享一个扩散时间步，推理时没法灵活切换模式。后来 UWM 的实验发现，PAD 的 channel-wise 拼接条件注入在更复杂的真实场景（DROID 数据集）下效果很差，多数任务接近 0%。

第二阶段：机制创新（2025.04 - 2025.12）

UWM（2025.04）做了 PAD 之后最关键的一步改进：给每个模态一个独立的扩散时间步。这个看似微小的改动带来了 12% 的性能提升，更重要的是让同一个 checkpoint 能在策略、世界模型、逆动力学、正向动力学四种模式间自由切换。UWM 还用 AdaLN 替换了 PAD 的 channel 拼接，大幅改善了真实世界的表现。"缺失模态 = 时间步设为 T"这个洞察直接影响了后来 X-WAM 的 ANS 调度和 Motus 的 UniDiffuser 调度，不过其他几条技术路线（自回归、级联、MoT 多流）各自走了不同的方向。

Motus（2025.12）走了另一条路：不直接预测机器人动作，而是用光流作为中间表示。先训练一个逆动力学模型（IDM）把光流映射回动作，再用 MoT 多流架构把视频流、光流流和动作流拼在一起。光流可以从任何视频中无监督提取，所以这个思路降低了对动作标注数据的依赖（但 IDM 本身仍然需要一些标注数据来训练）。

第三阶段：规模化与工程优化（2026.01 - 2026.04）

2026 年初开始，WAM 研究出现了明显的分化。

规模派以 DreamZero（2026.02）为代表，直接把 14B 参数的视频扩散模型（Wan2.1）改造成机器人策略。它选了自回归架构而非双向扩散，用 Flash 调度把推理延迟从 5.7 秒压到 150ms，并证明了"数据多样性 > 数据重复性"。未见任务 39.5% 的成绩让所有 VLA baseline 归零。

效率派则聚焦推理速度。Fast-WAM（2026.03）发现训练时的视频预测在推理时可以完全跳过，190ms 延迟做到 5Hz。GigaWorld（2026.03）用因果掩码从理论上证明了 video-free 推理的合理性，360ms/3Hz。DiT4DiT（2026.03）走级联路线，一个 DiT 生成视频、另一个从视频提取动作，167ms/6Hz，完全不碰预训练模型的权重。

功能派侧重扩展 WAM 的能力边界。Cosmos Policy（2026.01）把 WAM 当成 model-based planning 的模拟器，用 value function 对多个候选动作打分，50 条示范就能达到不错的效果。LingBot-VA（2026.01）用因果 KV cache 做自回归 VLA，动作输出频率到 50Hz。X-WAM（2026.04）把 2D 视频扩散扩展到 4D（加深度维度），用 ANS 调度器解耦视频和动作的去噪节奏，还加了 3D 重建的辅助监督。

两条分化路线

回头看这 10 篇工作，视频预测的角色是理解 WAM 演化的关键线索，但并非一条单一主线，而是分化成了两条路线。

路线 A："训练时想象，推理时跳过"。PAD 首先证明图像预测是极其高效的训练正则化；UWM 通过独立时间步让推理时可以只输出动作；Fast-WAM 和 GigaWorld 则把"推理时不生成视频"做成了显式的设计目标，速度快了好几倍。在这条路线上，视频预测从"必须做"逐步退化成了"训练辅助"。

路线 B："视频就是物理先验，推理时保留"。DreamZero 走的是另一个方向：它加倍押注视频生成，把 14B 视频扩散模型当核心引擎，推理时仍然生成视频。它的 Flash 调度通过在训练时把视频侧时间步偏向高噪声（Beta(7,1) 分布，均值 0.875，意味着视频几乎全是噪声），让模型大量练习"从模糊视频中提取干净动作"，这样推理时 1 步去噪就够了，延迟从 350ms 降到 150ms。但视频 token 仍然过网络、仍然参与 attention，并没有跳过视频生成这个步骤。在这条路线上，视频预测不是正则化手段，而是模型理解物理世界的核心机制。

两条路线各有优势：路线 A 推理快（190ms/5Hz），适合实时控制；路线 B 泛化强（未见任务 39.5%），适合需要零样本能力的场景。这个分化本身就是 WAM 领域在一年半里最有意思的发展。

一、架构范式

10 篇 WAM 论文围绕"怎么把视频和动作塞进一个模型"，走出了五条截然不同的路线。搞清楚这些路线的分歧，是后面所有对比的基础。

1.1 统一流 (Unified Flow)

代表作：PAD、UWM。核心思路是把视频 token 和动作 token 拼到同一个 DiT/Transformer 输入序列里，共享一套注意力机制联合去噪。优点是设计极简，视频和动作通过 attention 自由交换信息。缺点是两种模态的噪声水平会耦合（PAD 共享时间步），或者需要额外机制解耦（UWM 的独立时间步）。PAD 最早证明了这条路可行，UWM 在灵活性上做了关键升级。

1.2 自回归 (Autoregressive)

代表作：DreamZero、LingBot-VA。这类方法把时间轴切成 chunk，逐 chunk 交替生成视频帧和动作。LingBot-VA 更纯粹：基于因果掩码做自回归扩散，当前 chunk 只能看到过去的 chunk，形成严格的因果链。DreamZero 本质也是自回归（每次消费上一段末帧来生成下一段），只是单个 chunk 内部并行去噪。这类范式天然适合长序列任务，记忆可以通过 KV cache 跨 chunk 累积。代价是逐 chunk 生成引入顺序依赖，难以完全并行化。

1.3 级联 (Cascade)

代表作：DiT4DiT。一个 DiT（Stage-1）负责视频去噪，另一个 DiT（Stage-2）从 Stage-1 的中间层特征里提取动作，两个模型各管一头，不共享参数。好处是 Stage-1 可以直接用现成的预训练视频模型（Cosmos-Predict2.5），完全不改；Stage-2 只学"从视频表征到动作"这一件事，训练效率高。推理时 Stage-1 甚至只跑一步前向（不做完整去噪），就能给 Stage-2 提供足够好的特征。这篇论文的核心论点是"级联优于联合"，强行让一个网络同时优化视频和动作会互相干扰。

1.4 MoT 多流 (Mixture of Tokens)

代表作：Motus、Fast-WAM、GigaWorld-Policy。在 Transformer 内部，不同模态各有独立的专家通道（expert stream）：视频 token 走视频专家，动作 token 走动作专家，两者通过交叉注意力层或共享注意力层交换信息。好处是各专家可以独立优化，推理时还能把不需要的流直接砍掉（Fast-WAM 和 GigaWorld 都支持推理时跳过整个视频分支）。Motus 用光流作为"潜在动作表示"桥接两个流，是这类方法中最独特的设计。GigaWorld 则进一步引入因果掩码，确保动作流不依赖视频流的输出，推理时丢弃视频 token 在数学上完全等价。

1.5 其他

X-WAM 在统一流基础上做了两个扩展：一是加入深度分支（Lightweight Depth Adaptation），把模型从 2D 提升到 4D；二是引入 ANS（异步噪声采样），动作和视频按不同的去噪步数走。定位介于统一流和多流之间。Cosmos Policy 走了一条"零架构修改"路线：把动作和状态编码成与视频帧同形状的 latent，直接塞进视频扩散序列。视频模型完全不知道自己在处理动作，以为只是在生成更多帧。好处是预训练权重零损伤，缺点是动作表达受限于视频 latent 的维度。

二、视频-动作耦合方式

"视频和动作在去噪过程中到底是什么关系？"这是 WAM 设计里最核心的分歧点。耦合方式不同，模型的灵活性、训练效率和推理速度都会跟着变。

耦合方式	代表方法	工作机制	优点	缺点
共享时间步	PAD	视频和动作用同一个扩散时间步 t，每步去噪时噪声水平完全相同	实现最简单；梯度信号在两种模态间自由流动	推理时没法只输出动作而不预测视频；两种模态去噪难度不同，却被迫用相同步数
独立时间步	UWM	视频和动作各有独立的时间步 t_v 和 t_a，推理时可以分别设定	一个模型四种用法（策略/世界模型/正向/逆向动力学）；缺失模态设 t=T 即可	训练时要联合采样两个时间步；收敛可能更慢
自回归交替	DreamZero LingBot-VA	按时间顺序逐 chunk 生成：先预测未来帧，再基于预测帧推断动作（或交替进行）	天然因果结构，支持长程任务；可用 KV cache 加速	顺序依赖限制并行；误差有可能跨 chunk 累积
分离流 (MoT)	Motus Fast-WAM GigaWorld	视频和动作各走独立专家通道，通过共享 attention 或交叉 attention 交互	推理时可裁剪视频流 (video-free)；各流可独立优化	设计更复杂；交互层的位置和数量需要仔细调
ANS 异步	X-WAM	动作只用 5 步去噪出结果（快速响应），视频继续走 25 步保证质量	动作快速就绪，不拖慢控制循环	训练时要做异步噪声分布对齐；视频侧延迟仍然高
Flash 调度	DreamZero-Flash	Beta 噪声调度器训练时把视频偏向高噪声，推理时去噪步从 4 降到 1（16→4 由 DiT Caching 完成）	延迟从 5.7s 压到 150ms（38x）；动作质量几乎无损	只对动作侧有效；视频生成质量会明显下降
Latent Frame	Cosmos Policy	动作/状态编码成与视频帧同形状的 latent，视频模型完全不知道在处理动作	预训练权重零损伤；不改任何架构	动作表达受限于视频 latent 维度；解码需要额外映射

整体来看，耦合方式从"强绑定"一路走向"灵活解耦"。PAD 的共享时间步绑得最紧，UWM 的独立时间步开始松绑，MoT 多流更进一步让两个模态各有独立计算路径。最新的趋势是"训练时紧耦合、推理时完全解耦"：Fast-WAM 和 GigaWorld 训练时视频和动作紧密互动（视频为动作提供表征监督），推理时直接把视频扔掉，只跑动作。

三、Backbone 与预训练策略

WAM 有个核心问题：从头训练一个理解物理世界的模型，还是站在预训练视频模型的肩膀上？10 篇论文给出了从"完全从头"到"几乎不改"的完整频谱。

方法	Backbone	参数量	预训练来源	微调策略
PAD	DiT (自建)	661M	ImageNet 图像生成	全参数训练，4x A100 3天
UWM	DiT + SDXL VAE	~300M	仅用 SDXL VAE 编码图像，DiT 从头训练	全参数训练，4x A100 24h
Motus	Wan2.2 5B + Qwen3-VL 2B	~8B	互联网视频 + 视觉语言预训练	两阶段: 8K GPU-h + 10K GPU-h
Cosmos Policy	Cosmos-Predict2-2B	2B	NVIDIA Cosmos 视频预训练	全参数微调，64x H100 48h
LingBot-VA	Wan2.2-5B	5.3B	Wan2.2 视频生成预训练	1.4T tokens 预训练
DreamZero	Wan2.1-I2V-14B	14B	Wan2.1 Image-to-Video 预训练	100K steps, bs128, H100/GB200
DiT4DiT	Cosmos-Predict2.5-2B	~2.2B	NVIDIA Cosmos 2.5 视频预训练	Stage-1 冻结或轻调, Stage-2 从头训练
Fast-WAM	Wan2.2-5B	~6B	Wan2.2 视频生成预训练	MoT 额外动作分支需训练
GigaWorld	Wan2.2-5B	5B	Wan2.2 视频生成预训练	6000 GPU-h, bs256
X-WAM	Wan2.2-5B	~5B	Wan2.2 视频生成预训练	256x H20 40K steps; 微调 32x H20

几个值得注意的点：

Wan 系列的统治地位：10 篇论文中有 6 篇用了 Wan2.1 或 Wan2.2 做 backbone（DreamZero、LingBot-VA、Fast-WAM、GigaWorld、X-WAM、Motus 的视频分支）。这不是巧合，Wan 是目前开源视频生成模型里质量和规模最好的选择。
参数量两极分化：UWM 只有 300M 就在 DROID 上超过 Diffusion Policy 20 个百分点；DreamZero 用 14B 才换来零样本泛化。这说明：想在已见任务上做好，小模型就够；想在从没见过的任务上也能做，大模型的物理先验不可替代。
"零修改" vs "重度改造"：Cosmos Policy 完全不改视频模型架构，DiT4DiT 只动 Stage-2；Motus 则需要同时训练视频生成器和 VLM 两个巨型模块。改得越少，预训练先验保留得越好，但灵活性也越低。

四、数据利用方式

WAM 的一大卖点是"不只靠标注数据"。但各方法利用额外数据的方式差别很大。

方法	标注数据量	无标注视频	人类视频	跨平台数据	数据效率亮点
PAD	BridgeData-v2 (60K 条)	可混入（attention mask 屏蔽动作）	-	-	50 条/任务足够
UWM	DROID 2000 条	2000 条无标注视频协同训练	-	-	协同训练 OOD +4~12 pts
Motus	多源 (六层金字塔)	互联网视频 (最底层)	含人类操作视频	跨平台数据在金字塔中层	光流作为通用动作表示消除标注需求
Cosmos Policy	最少 50 条示范 (RoboCasa)	预训练阶段含	-	-	极高数据效率，50 条可微调
LingBot-VA	16K 小时	含在预训练	-	-	10 条示范微调 +15.6%
DreamZero	~500h (AgiBot, 42 技能)	视频迁移 10-20 min	人类视频 human-to-robot 迁移	30min play data 适配新平台	数据多样性 > 数据重复性
DiT4DiT	未详述	预训练含	-	-	10x 样本效率提升
Fast-WAM	未详述	视频共训练（必须，去掉视频则崩到 10%）	-	-	视频是不可或缺的训练信号
GigaWorld	~10K 小时	含 egocentric 人类视频	含人类视频	-	stride-12 未来帧采样足够
X-WAM	5800+ 小时	含在数据混合	-	跨具身体数据混合	大规模数据 + 深度监督互补

几条规律：

规律 1：视频数据是 WAM 的"氧气"。 Fast-WAM 的消融最直接：去掉视频共训练，真实世界成功率从 ~85% 崩到 10%。PAD 去掉图像预测掉 28.9 pts，GigaWorld 去掉视频掉 18 pts。没有任何一篇论文表明完全不用视频还能训好 WAM。

规律 2：DreamZero 开辟了"人类视频迁移"的新路。 用互联网上大量人类操作视频给机器人"补课"，不需要配对标注。这个方向最有想象力，因为人类视频几乎是无限的。

规律 3：数据效率差异巨大。 Cosmos Policy 只要 50 条示范就能在 RoboCasa 上达到 67.1%，X-WAM 却需要 5800 小时数据。不过 X-WAM 做的是跨具身体 4D 重建，复杂度完全不在一个层面。

五、推理效率

对闭环机器人控制来说，推理延迟直接决定能不能用。操作型任务一般要至少 5Hz（200ms 以下），移动型任务可以容忍 1-2Hz。

方法	推理延迟	控制频率	推理时视频	主要加速手段
PAD	未报告 (75-step DDIM)	未报告	必须生成	-
UWM	未报告	10Hz	策略模式可跳过	独立时间步: t_v=T 退化为纯策略
DreamZero	~150ms (Flash)	7Hz	生成但异步执行	CFG 并行 + DiT Caching + NVFP4 量化 + Flash 调度 = 38x
DiT4DiT	~167ms (A100)	6Hz	仅 1 步前向提取特征	Stage-1 单步特征提取 (非迭代去噪)
Fast-WAM	190ms	~5Hz	完全跳过	推理时完全裁剪视频分支
GigaWorld	360ms (A100)	~3Hz	完全跳过 (因果掩码保证)	因果 mask 让动作不依赖视频 token
X-WAM	1033ms (RTX 3090)	~1Hz	ANS 异步 (动作 5 步, 视频 25 步)	动作侧 5 步去噪快速响应
Cosmos Policy	1413ms	~0.7Hz	策略模式否, planning 模式是	并行解码 / N-GPU planning
LingBot-VA	未报告 (异步隐藏)	50Hz 动作 / 12.5Hz 视频	生成 (自回归)	KV cache + Noisy History Aug. (半步去噪)
Motus	3231ms	~0.3Hz	必须生成	-

快速方法的加速策略大致分三类：

推理时跳过视频：Fast-WAM 和 GigaWorld 推理时完全不生成视频，直接省掉最耗时的部分。前提是训练时的视频监督已经把物理理解"蒸馏"进了动作分支的权重。
减少去噪步数：DreamZero-Flash 用 Beta 噪声调度把 16 步压到 1 步；DiT4DiT 的 Stage-1 只做 1 步前向（不做迭代去噪）就提取特征；X-WAM 的 ANS 让动作侧只走 5 步。
系统级优化：DreamZero 组合了 CFG 并行（正负引导信号打包成一个 batch）、DiT Caching（复用相邻步的 velocity 预测，16 步→4 步）、NVFP4 量化，再加 Flash 调度（4 步→1 步），把 14B 模型延迟从 5.7 秒压到 150ms，达到 38x 加速。

六、评测基准与成绩

不同论文选的评测基准并不完全重叠。即使在同一个 benchmark 上，评估协议（示范数量、种子数、OOD 设置等）也可能不同，数字仅供参考趋势。

6.1 LIBERO (4-suite 平均成功率)

LIBERO 是桌面操作最常用的仿真基准之一，包含四个子套件。下面列出报告了该基准的方法。

6.2 RoboTwin 2.0 (50+ tasks)

RoboTwin 是双臂操作的评估平台，难度较高。格式为 L1 / L2 (两个难度级别的成功率)。

方法	RoboTwin L1	RoboTwin L2
Motus	88.7%	87.0%
GigaWorld	87%	85%
X-WAM	89.8%	90.7%
Fast-WAM	91.8% (均值)
LingBot-VA	92.9%	91.6%

6.3 RoboCasa (24 tasks)

方法	成功率
DiT4DiT	50.8% (GR1 split)
UWM	60.8%
Cosmos Policy	67.1%
X-WAM	79.2%

6.4 真实世界实验

方法	平台	成绩	亮点
PAD	Metaworld / Real	Metaworld 72.5%, Real 72% (加深度 78%)	加深度模态后提升至 78%；面对未见物体成功率提升 28%
UWM	UR5e	OOD 成功率 0.72~0.84	协同训练后 OOD 提升显著
DreamZero	AgiBot G1	已见 62.2%, 未见 39.5%	零样本: 未见任务 39.5% (所有 VLA 接近 0%)
Cosmos Policy	ALOHA 双臂	93.6% 平均分	Best-of-N planning 困难任务 +12.5pts
Fast-WAM	桌面操作	~85% (towel folding)	Video-free 推理 190ms, 5Hz 闭环
GigaWorld	桌面操作	83%	Video-free 推理, 360ms, 3Hz
LingBot-VA	6 tasks	SOTA	50Hz 动作输出, 12.5Hz 视频
X-WAM	双臂耳机包装	SOTA	4D 重建 + 跨具身迁移
DiT4DiT	Unitree G1	SOTA	级联推理 167ms, 人形机器人部署

七、核心 Insight 对比

把 10 篇论文各自的"最重要发现"放到一起看，能发现一些跨论文的规律。

7.1 各论文核心 Insight

PAD：图像预测是训练时的正则化器，推理时扔掉。
去掉图像预测后性能暴跌 28.9 个百分点，但推理时图像预测的结果根本没人用。视频预测的价值在于逼模型学物理规律，而不是推理时提供额外信息。PAD 是第一个清晰证明这一点的工作。

UWM：缺失模态 = 把时间步设为 T。
极其简洁的洞见：在扩散模型里，"不知道"和"纯噪声"是等价的。某种模态缺失时，把它的噪声水平设到最大（t=T），模型自然忽略它。不需要 mask，不需要改架构，噪声本身就是最自然的缺失值编码。

DreamZero：数据多样性 > 数据重复性。
500 小时涵盖 42 种技能、22 个环境的异构数据，效果超过了数千小时同任务重复示范训出的 VLA。这颠覆了"数据越多越好"的直觉，关键在覆盖面而非数量。同时 DreamZero 也证明了预训练视频模型的物理先验可以零样本迁移到未见任务（未见任务 39.5%，所有 VLA 接近 0%）。

Cosmos Policy：World Model + Value Function = Planning。
不只是用世界模型想象未来，还训了一个价值函数给未来打分。采样 8 个候选动作，用世界模型 rollout，再用价值函数选最优，困难任务提升 12.5 个百分点。更有意思的是"做得越多想得越准"的正循环：用策略自己的部署经验去精调世界模型。

X-WAM：深度监督不只提升 3D，还提升策略。
加入深度预测分支后，不仅 3D 重建变好了，动作执行的成功率也跟着涨。深度信息作为额外的空间结构监督，能帮模型建立更准确的物理理解。X-WAM 还证明了跨具身体的深度监督可行：不同机器人、不同相机配置可以共享同一个深度分支。

GigaWorld-Policy：因果掩码让 Video-free 推理有理论保证。
MoT 架构加上因果注意力掩码，确保动作 token 在计算上不依赖视频 token 的输出。推理时删掉视频 token 在数学上精确等价，不是近似。比起 Fast-WAM "经验上发现删掉也行"的做法，理论保证更强。

Fast-WAM：训练时想象、推理时跳过。
口号简洁到位。训练时视频生成为动作分支提供丰富的物理表征监督，推理时完全不跑视频分支，延迟从秒级降到 190ms。消融实验证明这不是"可选优化"，而是"必要设计"：去掉训练时的视频，真实世界成功率从 ~85% 崩到 10%。

DiT4DiT：级联优于联合。
如果手头有一个很好的预训练视频模型，强行让它同时学动作可能破坏已有表征。更好的做法是让它只管视频，再用另一个轻量网络从中间层特征里"蒸馏"出动作。DiT4DiT 还发现 Stage-1 只跑一步前向（不做完整去噪）就够了，去噪早期的特征已经包含足够的控制信息。

LingBot-VA：自回归 + Noisy History Augmentation 避免误差累积。
自回归世界模型的老毛病是误差累积，一步错就步步错。LingBot-VA 训练时给历史帧加噪声，逼模型学会在"不完美的过去"上继续工作，相当于 scheduled sampling 的扩散版本。效果是连续 rollout 很多步，生成质量依然稳定。

Motus：光流是连接视频和动作的天然桥梁。
光流描述的是"像素级的运动"，同时编码了"世界怎么变"（视频信息）和"该怎么动"（动作信息）。Motus 用光流作为"潜在动作表示"，让视频生成器和动作解码器通过光流空间交流，避免两种差异巨大的模态直接在同一个特征空间里竞争。

7.2 跨论文宏观趋势

趋势 1："视频是训练时的老师，不是推理时的拐杖"正在成为共识。
PAD（2024）最先发现这个现象，Fast-WAM 和 GigaWorld（2026）把它做到了极致。从 PAD 的"推理时可以不看"到 Fast-WAM/GigaWorld 的"推理时压根不跑"，WAM 领域正在快速收敛到"训练时用视频、推理时跳过视频"的范式。

趋势 2：WAM 正在分化为"大而泛化"和"快而精准"两条路线。
路线 A（DreamZero 14B、Motus 8B、LingBot-VA 5.3B）追求零样本泛化和跨具身迁移，代价是推理延迟高。路线 B（Fast-WAM、GigaWorld、DiT4DiT）保留视频训练信号但推理时跳过，追求实时控制（150-360ms）。两条路线暂时还没合流，但 DreamZero-Flash 的 38x 加速说明大模型实时化是有可能的。

趋势 3：预训练视频模型正在取代专用架构。
2024 年的 PAD 还在用 ImageNet DiT 从头训练，到了 2026 年几乎所有新工作都站在 Wan2.x 或 Cosmos 的肩膀上。视频预训练模型提供的物理先验太强了，从头训练已经不划算。这也意味着 WAM 的发展速度很大程度上取决于基础视频模型的进步。

趋势 4：3D/4D 正在成为下一个战场。
X-WAM 是第一个系统性地把深度信息引入 WAM 的工作，并且证明了深度监督同时提升 3D 重建和策略性能。2D WAM 在 LIBERO 上已经逼近 99% 的天花板，向 4D 扩展是自然的下一步。

八、设计选择决策树

如果你是研究者，准备做 WAM，该怎么选路线？下面是一棵基于 10 篇论文经验总结的决策树。

简短总结一下。WAM 领域不到两年（从 PAD 2024.11 到 X-WAM 2026.04），就从"概念验证"走到了"多条成熟路线并行"。核心共识是：视频预测作为训练时的物理监督信号极其有价值，但推理时是否需要生成视频则因场景而异。追求极致实时性的部署场景，Fast-WAM / GigaWorld / DiT4DiT 的"训练时想象、推理时跳过"路线最实用。追求零样本泛化和跨平台迁移的研究场景，DreamZero 的大模型路线最有前景。X-WAM 向 4D 的扩展、Cosmos Policy 的 planning 能力、Motus 的光流中介，则各自在不同方向上开辟了新的可能性。