目录导航

WAM 论文深度横向对比

10 篇 World Action Model 论文的多维度分析

2026-06-04 · 基于 PAD / UWM / DreamZero / Cosmos Policy / X-WAM / GigaWorld / Fast-WAM / DiT4DiT / LingBot-VA / Motus 阅读笔记整理

〇、研究脉络:从联合去噪到多流加速

WAM 的故事可以分成三个阶段来看。

第一阶段:概念验证(2024.11)

PAD 是起点。它提出了一个简单但有力的假设:既然图像生成和动作生成在技术上都是扩散去噪,那就把它们塞进同一个 DiT 里联合处理。结果验证了两件事:(1)图像预测确实能大幅提升策略性能(去掉后暴跌 28.9 个百分点);(2)联合去噪比两阶段方案更优。PAD 在自己的 Franka Panda 平台上做到了 72% 成功率,但局限也很明显:所有模态共享一个扩散时间步,推理时没法灵活切换模式。后来 UWM 的实验发现,PAD 的 channel-wise 拼接条件注入在更复杂的真实场景(DROID 数据集)下效果很差,多数任务接近 0%。

第二阶段:机制创新(2025.04 - 2025.12)

UWM(2025.04)做了 PAD 之后最关键的一步改进:给每个模态一个独立的扩散时间步。这个看似微小的改动带来了 12% 的性能提升,更重要的是让同一个 checkpoint 能在策略、世界模型、逆动力学、正向动力学四种模式间自由切换。UWM 还用 AdaLN 替换了 PAD 的 channel 拼接,大幅改善了真实世界的表现。"缺失模态 = 时间步设为 T"这个洞察直接影响了后来 X-WAM 的 ANS 调度和 Motus 的 UniDiffuser 调度,不过其他几条技术路线(自回归、级联、MoT 多流)各自走了不同的方向。

Motus(2025.12)走了另一条路:不直接预测机器人动作,而是用光流作为中间表示。先训练一个逆动力学模型(IDM)把光流映射回动作,再用 MoT 多流架构把视频流、光流流和动作流拼在一起。光流可以从任何视频中无监督提取,所以这个思路降低了对动作标注数据的依赖(但 IDM 本身仍然需要一些标注数据来训练)。

第三阶段:规模化与工程优化(2026.01 - 2026.04)

2026 年初开始,WAM 研究出现了明显的分化。

规模派DreamZero(2026.02)为代表,直接把 14B 参数的视频扩散模型(Wan2.1)改造成机器人策略。它选了自回归架构而非双向扩散,用 Flash 调度把推理延迟从 5.7 秒压到 150ms,并证明了"数据多样性 > 数据重复性"。未见任务 39.5% 的成绩让所有 VLA baseline 归零。

效率派则聚焦推理速度。Fast-WAM(2026.03)发现训练时的视频预测在推理时可以完全跳过,190ms 延迟做到 5Hz。GigaWorld(2026.03)用因果掩码从理论上证明了 video-free 推理的合理性,360ms/3Hz。DiT4DiT(2026.03)走级联路线,一个 DiT 生成视频、另一个从视频提取动作,167ms/6Hz,完全不碰预训练模型的权重。

功能派侧重扩展 WAM 的能力边界。Cosmos Policy(2026.01)把 WAM 当成 model-based planning 的模拟器,用 value function 对多个候选动作打分,50 条示范就能达到不错的效果。LingBot-VA(2026.01)用因果 KV cache 做自回归 VLA,动作输出频率到 50Hz。X-WAM(2026.04)把 2D 视频扩散扩展到 4D(加深度维度),用 ANS 调度器解耦视频和动作的去噪节奏,还加了 3D 重建的辅助监督。

两条分化路线

回头看这 10 篇工作,视频预测的角色是理解 WAM 演化的关键线索,但并非一条单一主线,而是分化成了两条路线。

路线 A:"训练时想象,推理时跳过"。PAD 首先证明图像预测是极其高效的训练正则化;UWM 通过独立时间步让推理时可以只输出动作;Fast-WAM 和 GigaWorld 则把"推理时不生成视频"做成了显式的设计目标,速度快了好几倍。在这条路线上,视频预测从"必须做"逐步退化成了"训练辅助"。

路线 B:"视频就是物理先验,推理时保留"。DreamZero 走的是另一个方向:它加倍押注视频生成,把 14B 视频扩散模型当核心引擎,推理时仍然生成视频。它的 Flash 调度通过在训练时把视频侧时间步偏向高噪声(Beta(7,1) 分布,均值 0.875,意味着视频几乎全是噪声),让模型大量练习"从模糊视频中提取干净动作",这样推理时 1 步去噪就够了,延迟从 350ms 降到 150ms。但视频 token 仍然过网络、仍然参与 attention,并没有跳过视频生成这个步骤。在这条路线上,视频预测不是正则化手段,而是模型理解物理世界的核心机制。

两条路线各有优势:路线 A 推理快(190ms/5Hz),适合实时控制;路线 B 泛化强(未见任务 39.5%),适合需要零样本能力的场景。这个分化本身就是 WAM 领域在一年半里最有意思的发展。

一、架构范式

10 篇 WAM 论文围绕"怎么把视频和动作塞进一个模型",走出了五条截然不同的路线。搞清楚这些路线的分歧,是后面所有对比的基础。

1.1 统一流 (Unified Flow)

代表作:PADUWM。核心思路是把视频 token 和动作 token 拼到同一个 DiT/Transformer 输入序列里,共享一套注意力机制联合去噪。优点是设计极简,视频和动作通过 attention 自由交换信息。缺点是两种模态的噪声水平会耦合(PAD 共享时间步),或者需要额外机制解耦(UWM 的独立时间步)。PAD 最早证明了这条路可行,UWM 在灵活性上做了关键升级。

1.2 自回归 (Autoregressive)

代表作:DreamZeroLingBot-VA。这类方法把时间轴切成 chunk,逐 chunk 交替生成视频帧和动作。LingBot-VA 更纯粹:基于因果掩码做自回归扩散,当前 chunk 只能看到过去的 chunk,形成严格的因果链。DreamZero 本质也是自回归(每次消费上一段末帧来生成下一段),只是单个 chunk 内部并行去噪。这类范式天然适合长序列任务,记忆可以通过 KV cache 跨 chunk 累积。代价是逐 chunk 生成引入顺序依赖,难以完全并行化。

1.3 级联 (Cascade)

代表作:DiT4DiT。一个 DiT(Stage-1)负责视频去噪,另一个 DiT(Stage-2)从 Stage-1 的中间层特征里提取动作,两个模型各管一头,不共享参数。好处是 Stage-1 可以直接用现成的预训练视频模型(Cosmos-Predict2.5),完全不改;Stage-2 只学"从视频表征到动作"这一件事,训练效率高。推理时 Stage-1 甚至只跑一步前向(不做完整去噪),就能给 Stage-2 提供足够好的特征。这篇论文的核心论点是"级联优于联合",强行让一个网络同时优化视频和动作会互相干扰。

1.4 MoT 多流 (Mixture of Tokens)

代表作:MotusFast-WAMGigaWorld-Policy。在 Transformer 内部,不同模态各有独立的专家通道(expert stream):视频 token 走视频专家,动作 token 走动作专家,两者通过交叉注意力层或共享注意力层交换信息。好处是各专家可以独立优化,推理时还能把不需要的流直接砍掉(Fast-WAM 和 GigaWorld 都支持推理时跳过整个视频分支)。Motus 用光流作为"潜在动作表示"桥接两个流,是这类方法中最独特的设计。GigaWorld 则进一步引入因果掩码,确保动作流不依赖视频流的输出,推理时丢弃视频 token 在数学上完全等价。

1.5 其他

X-WAM 在统一流基础上做了两个扩展:一是加入深度分支(Lightweight Depth Adaptation),把模型从 2D 提升到 4D;二是引入 ANS(异步噪声采样),动作和视频按不同的去噪步数走。定位介于统一流和多流之间。Cosmos Policy 走了一条"零架构修改"路线:把动作和状态编码成与视频帧同形状的 latent,直接塞进视频扩散序列。视频模型完全不知道自己在处理动作,以为只是在生成更多帧。好处是预训练权重零损伤,缺点是动作表达受限于视频 latent 的维度。

WAM 架构范式分类图 World Action Model 统一流 PAD 共享时间步 UWM 独立时间步 自回归 DreamZero 14B, 视频先验 LingBot-VA 因果 KV cache 级联 DiT4DiT 双 DiT 级联 MoT 多流 Motus 光流桥接 Fast-WAM 推理跳过视频 GigaWorld 因果掩码 MoT 特殊路线 X-WAM 4D + ANS Cosmos Latent Frame 范式特征速览 统一流: 一个 Transformer 吃所有 token,最简架构,但模态间噪声需解耦 自回归: 逐 chunk 生成,天然支持长序列,但有顺序依赖 级联: 两个模型各管一头,保护预训练不被破坏,但信息传递有瓶颈 MoT 多流: 独立专家通道,推理时可裁剪视频流,速度快 特殊路线: X-WAM 加深度维度变 4D,Cosmos Policy 用 latent frame 零修改注入

二、视频-动作耦合方式

"视频和动作在去噪过程中到底是什么关系?"这是 WAM 设计里最核心的分歧点。耦合方式不同,模型的灵活性、训练效率和推理速度都会跟着变。

耦合方式 代表方法 工作机制 优点 缺点
共享时间步 PAD 视频和动作用同一个扩散时间步 t,每步去噪时噪声水平完全相同 实现最简单;梯度信号在两种模态间自由流动 推理时没法只输出动作而不预测视频;两种模态去噪难度不同,却被迫用相同步数
独立时间步 UWM 视频和动作各有独立的时间步 t_v 和 t_a,推理时可以分别设定 一个模型四种用法(策略/世界模型/正向/逆向动力学);缺失模态设 t=T 即可 训练时要联合采样两个时间步;收敛可能更慢
自回归交替 DreamZero
LingBot-VA
按时间顺序逐 chunk 生成:先预测未来帧,再基于预测帧推断动作(或交替进行) 天然因果结构,支持长程任务;可用 KV cache 加速 顺序依赖限制并行;误差有可能跨 chunk 累积
分离流 (MoT) Motus
Fast-WAM
GigaWorld
视频和动作各走独立专家通道,通过共享 attention 或交叉 attention 交互 推理时可裁剪视频流 (video-free);各流可独立优化 设计更复杂;交互层的位置和数量需要仔细调
ANS 异步 X-WAM 动作只用 5 步去噪出结果(快速响应),视频继续走 25 步保证质量 动作快速就绪,不拖慢控制循环 训练时要做异步噪声分布对齐;视频侧延迟仍然高
Flash 调度 DreamZero-Flash Beta 噪声调度器训练时把视频偏向高噪声,推理时去噪步从 4 降到 1(16→4 由 DiT Caching 完成) 延迟从 5.7s 压到 150ms(38x);动作质量几乎无损 只对动作侧有效;视频生成质量会明显下降
Latent Frame Cosmos Policy 动作/状态编码成与视频帧同形状的 latent,视频模型完全不知道在处理动作 预训练权重零损伤;不改任何架构 动作表达受限于视频 latent 维度;解码需要额外映射

整体来看,耦合方式从"强绑定"一路走向"灵活解耦"。PAD 的共享时间步绑得最紧,UWM 的独立时间步开始松绑,MoT 多流更进一步让两个模态各有独立计算路径。最新的趋势是"训练时紧耦合、推理时完全解耦":Fast-WAM 和 GigaWorld 训练时视频和动作紧密互动(视频为动作提供表征监督),推理时直接把视频扔掉,只跑动作。

三、Backbone 与预训练策略

WAM 有个核心问题:从头训练一个理解物理世界的模型,还是站在预训练视频模型的肩膀上?10 篇论文给出了从"完全从头"到"几乎不改"的完整频谱。

方法 Backbone 参数量 预训练来源 微调策略
PAD DiT (自建) 661M ImageNet 图像生成 全参数训练,4x A100 3天
UWM DiT + SDXL VAE ~300M 仅用 SDXL VAE 编码图像,DiT 从头训练 全参数训练,4x A100 24h
Motus Wan2.2 5B + Qwen3-VL 2B ~8B 互联网视频 + 视觉语言预训练 两阶段: 8K GPU-h + 10K GPU-h
Cosmos Policy Cosmos-Predict2-2B 2B NVIDIA Cosmos 视频预训练 全参数微调,64x H100 48h
LingBot-VA Wan2.2-5B 5.3B Wan2.2 视频生成预训练 1.4T tokens 预训练
DreamZero Wan2.1-I2V-14B 14B Wan2.1 Image-to-Video 预训练 100K steps, bs128, H100/GB200
DiT4DiT Cosmos-Predict2.5-2B ~2.2B NVIDIA Cosmos 2.5 视频预训练 Stage-1 冻结或轻调, Stage-2 从头训练
Fast-WAM Wan2.2-5B ~6B Wan2.2 视频生成预训练 MoT 额外动作分支需训练
GigaWorld Wan2.2-5B 5B Wan2.2 视频生成预训练 6000 GPU-h, bs256
X-WAM Wan2.2-5B ~5B Wan2.2 视频生成预训练 256x H20 40K steps; 微调 32x H20

几个值得注意的点:

四、数据利用方式

WAM 的一大卖点是"不只靠标注数据"。但各方法利用额外数据的方式差别很大。

方法 标注数据量 无标注视频 人类视频 跨平台数据 数据效率亮点
PAD BridgeData-v2 (60K 条) 可混入(attention mask 屏蔽动作) - - 50 条/任务足够
UWM DROID 2000 条 2000 条无标注视频协同训练 - - 协同训练 OOD +4~12 pts
Motus 多源 (六层金字塔) 互联网视频 (最底层) 含人类操作视频 跨平台数据在金字塔中层 光流作为通用动作表示消除标注需求
Cosmos Policy 最少 50 条示范 (RoboCasa) 预训练阶段含 - - 极高数据效率,50 条可微调
LingBot-VA 16K 小时 含在预训练 - - 10 条示范微调 +15.6%
DreamZero ~500h (AgiBot, 42 技能) 视频迁移 10-20 min 人类视频 human-to-robot 迁移 30min play data 适配新平台 数据多样性 > 数据重复性
DiT4DiT 未详述 预训练含 - - 10x 样本效率提升
Fast-WAM 未详述 视频共训练(必须,去掉视频则崩到 10%) - - 视频是不可或缺的训练信号
GigaWorld ~10K 小时 含 egocentric 人类视频 含人类视频 - stride-12 未来帧采样足够
X-WAM 5800+ 小时 含在数据混合 - 跨具身体数据混合 大规模数据 + 深度监督互补

几条规律:

规律 1:视频数据是 WAM 的"氧气"。 Fast-WAM 的消融最直接:去掉视频共训练,真实世界成功率从 ~85% 崩到 10%。PAD 去掉图像预测掉 28.9 pts,GigaWorld 去掉视频掉 18 pts。没有任何一篇论文表明完全不用视频还能训好 WAM。
规律 2:DreamZero 开辟了"人类视频迁移"的新路。 用互联网上大量人类操作视频给机器人"补课",不需要配对标注。这个方向最有想象力,因为人类视频几乎是无限的。
规律 3:数据效率差异巨大。 Cosmos Policy 只要 50 条示范就能在 RoboCasa 上达到 67.1%,X-WAM 却需要 5800 小时数据。不过 X-WAM 做的是跨具身体 4D 重建,复杂度完全不在一个层面。

五、推理效率

对闭环机器人控制来说,推理延迟直接决定能不能用。操作型任务一般要至少 5Hz(200ms 以下),移动型任务可以容忍 1-2Hz。

方法 推理延迟 控制频率 推理时视频 主要加速手段
PAD 未报告 (75-step DDIM) 未报告 必须生成 -
UWM 未报告 10Hz 策略模式可跳过 独立时间步: t_v=T 退化为纯策略
DreamZero ~150ms (Flash) 7Hz 生成但异步执行 CFG 并行 + DiT Caching + NVFP4 量化 + Flash 调度 = 38x
DiT4DiT ~167ms (A100) 6Hz 仅 1 步前向提取特征 Stage-1 单步特征提取 (非迭代去噪)
Fast-WAM 190ms ~5Hz 完全跳过 推理时完全裁剪视频分支
GigaWorld 360ms (A100) ~3Hz 完全跳过 (因果掩码保证) 因果 mask 让动作不依赖视频 token
X-WAM 1033ms (RTX 3090) ~1Hz ANS 异步 (动作 5 步, 视频 25 步) 动作侧 5 步去噪快速响应
Cosmos Policy 1413ms ~0.7Hz 策略模式否, planning 模式是 并行解码 / N-GPU planning
LingBot-VA 未报告 (异步隐藏) 50Hz 动作 / 12.5Hz 视频 生成 (自回归) KV cache + Noisy History Aug. (半步去噪)
Motus 3231ms ~0.3Hz 必须生成 -
推理延迟对比 (ms, 越低越好) 仅列出报告了延迟数据的方法; 200ms 虚线 = 5Hz 实时控制门槛 200ms 0 1000 2000 3000ms DreamZero-Flash 150ms DiT4DiT 167ms Fast-WAM 190ms GigaWorld 360ms X-WAM 1033ms Cosmos Policy 1413ms Motus 3231ms 实时 (<200ms) 勉强可用 离线/异步

快速方法的加速策略大致分三类:

六、评测基准与成绩

不同论文选的评测基准并不完全重叠。即使在同一个 benchmark 上,评估协议(示范数量、种子数、OOD 设置等)也可能不同,数字仅供参考趋势。

6.1 LIBERO (4-suite 平均成功率)

LIBERO 是桌面操作最常用的仿真基准之一,包含四个子套件。下面列出报告了该基准的方法。

LIBERO 4-suite 平均成功率 UWM 79.0% Fast-WAM 97.6% Motus 97.7% Cosmos Policy 98.5% LingBot-VA 98.5% DiT4DiT 98.6% 数据来自各论文自报; PAD/DreamZero/GigaWorld/X-WAM 未报告 LIBERO

6.2 RoboTwin 2.0 (50+ tasks)

RoboTwin 是双臂操作的评估平台,难度较高。格式为 L1 / L2 (两个难度级别的成功率)。

方法 RoboTwin L1 RoboTwin L2
Motus 88.7% 87.0%
GigaWorld 87% 85%
X-WAM 89.8% 90.7%
Fast-WAM 91.8% (均值)
LingBot-VA 92.9% 91.6%

6.3 RoboCasa (24 tasks)

方法 成功率
DiT4DiT50.8% (GR1 split)
UWM60.8%
Cosmos Policy67.1%
X-WAM79.2%

6.4 真实世界实验

方法 平台 成绩 亮点
PAD Metaworld / Real Metaworld 72.5%, Real 72% (加深度 78%) 加深度模态后提升至 78%;面对未见物体成功率提升 28%
UWM UR5e OOD 成功率 0.72~0.84 协同训练后 OOD 提升显著
DreamZero AgiBot G1 已见 62.2%, 未见 39.5% 零样本: 未见任务 39.5% (所有 VLA 接近 0%)
Cosmos Policy ALOHA 双臂 93.6% 平均分 Best-of-N planning 困难任务 +12.5pts
Fast-WAM 桌面操作 ~85% (towel folding) Video-free 推理 190ms, 5Hz 闭环
GigaWorld 桌面操作 83% Video-free 推理, 360ms, 3Hz
LingBot-VA 6 tasks SOTA 50Hz 动作输出, 12.5Hz 视频
X-WAM 双臂耳机包装 SOTA 4D 重建 + 跨具身迁移
DiT4DiT Unitree G1 SOTA 级联推理 167ms, 人形机器人部署
RoboTwin 2.0 成绩对比 L1 (深色) vs L2 (浅色) 对比; Fast-WAM 仅报告均值 GigaWorld L1: 87% L2: 85% Motus L1: 88.7% L2: 87.0% X-WAM L1: 89.8% L2: 90.7% Fast-WAM 均值: 91.8% LingBot-VA L1: 92.9% L2: 91.6% 80% 85% 90%+

七、核心 Insight 对比

把 10 篇论文各自的"最重要发现"放到一起看,能发现一些跨论文的规律。

7.1 各论文核心 Insight

PAD:图像预测是训练时的正则化器,推理时扔掉。
去掉图像预测后性能暴跌 28.9 个百分点,但推理时图像预测的结果根本没人用。视频预测的价值在于逼模型学物理规律,而不是推理时提供额外信息。PAD 是第一个清晰证明这一点的工作。
UWM:缺失模态 = 把时间步设为 T。
极其简洁的洞见:在扩散模型里,"不知道"和"纯噪声"是等价的。某种模态缺失时,把它的噪声水平设到最大(t=T),模型自然忽略它。不需要 mask,不需要改架构,噪声本身就是最自然的缺失值编码。
DreamZero:数据多样性 > 数据重复性。
500 小时涵盖 42 种技能、22 个环境的异构数据,效果超过了数千小时同任务重复示范训出的 VLA。这颠覆了"数据越多越好"的直觉,关键在覆盖面而非数量。同时 DreamZero 也证明了预训练视频模型的物理先验可以零样本迁移到未见任务(未见任务 39.5%,所有 VLA 接近 0%)。
Cosmos Policy:World Model + Value Function = Planning。
不只是用世界模型想象未来,还训了一个价值函数给未来打分。采样 8 个候选动作,用世界模型 rollout,再用价值函数选最优,困难任务提升 12.5 个百分点。更有意思的是"做得越多想得越准"的正循环:用策略自己的部署经验去精调世界模型。
X-WAM:深度监督不只提升 3D,还提升策略。
加入深度预测分支后,不仅 3D 重建变好了,动作执行的成功率也跟着涨。深度信息作为额外的空间结构监督,能帮模型建立更准确的物理理解。X-WAM 还证明了跨具身体的深度监督可行:不同机器人、不同相机配置可以共享同一个深度分支。
GigaWorld-Policy:因果掩码让 Video-free 推理有理论保证。
MoT 架构加上因果注意力掩码,确保动作 token 在计算上不依赖视频 token 的输出。推理时删掉视频 token 在数学上精确等价,不是近似。比起 Fast-WAM "经验上发现删掉也行"的做法,理论保证更强。
Fast-WAM:训练时想象、推理时跳过。
口号简洁到位。训练时视频生成为动作分支提供丰富的物理表征监督,推理时完全不跑视频分支,延迟从秒级降到 190ms。消融实验证明这不是"可选优化",而是"必要设计":去掉训练时的视频,真实世界成功率从 ~85% 崩到 10%。
DiT4DiT:级联优于联合。
如果手头有一个很好的预训练视频模型,强行让它同时学动作可能破坏已有表征。更好的做法是让它只管视频,再用另一个轻量网络从中间层特征里"蒸馏"出动作。DiT4DiT 还发现 Stage-1 只跑一步前向(不做完整去噪)就够了,去噪早期的特征已经包含足够的控制信息。
LingBot-VA:自回归 + Noisy History Augmentation 避免误差累积。
自回归世界模型的老毛病是误差累积,一步错就步步错。LingBot-VA 训练时给历史帧加噪声,逼模型学会在"不完美的过去"上继续工作,相当于 scheduled sampling 的扩散版本。效果是连续 rollout 很多步,生成质量依然稳定。
Motus:光流是连接视频和动作的天然桥梁。
光流描述的是"像素级的运动",同时编码了"世界怎么变"(视频信息)和"该怎么动"(动作信息)。Motus 用光流作为"潜在动作表示",让视频生成器和动作解码器通过光流空间交流,避免两种差异巨大的模态直接在同一个特征空间里竞争。

7.2 跨论文宏观趋势

趋势 1:"视频是训练时的老师,不是推理时的拐杖"正在成为共识。
PAD(2024)最先发现这个现象,Fast-WAM 和 GigaWorld(2026)把它做到了极致。从 PAD 的"推理时可以不看"到 Fast-WAM/GigaWorld 的"推理时压根不跑",WAM 领域正在快速收敛到"训练时用视频、推理时跳过视频"的范式。
趋势 2:WAM 正在分化为"大而泛化"和"快而精准"两条路线。
路线 A(DreamZero 14B、Motus 8B、LingBot-VA 5.3B)追求零样本泛化和跨具身迁移,代价是推理延迟高。路线 B(Fast-WAM、GigaWorld、DiT4DiT)保留视频训练信号但推理时跳过,追求实时控制(150-360ms)。两条路线暂时还没合流,但 DreamZero-Flash 的 38x 加速说明大模型实时化是有可能的。
趋势 3:预训练视频模型正在取代专用架构。
2024 年的 PAD 还在用 ImageNet DiT 从头训练,到了 2026 年几乎所有新工作都站在 Wan2.x 或 Cosmos 的肩膀上。视频预训练模型提供的物理先验太强了,从头训练已经不划算。这也意味着 WAM 的发展速度很大程度上取决于基础视频模型的进步。
趋势 4:3D/4D 正在成为下一个战场。
X-WAM 是第一个系统性地把深度信息引入 WAM 的工作,并且证明了深度监督同时提升 3D 重建和策略性能。2D WAM 在 LIBERO 上已经逼近 99% 的天花板,向 4D 扩展是自然的下一步。

八、设计选择决策树

如果你是研究者,准备做 WAM,该怎么选路线?下面是一棵基于 10 篇论文经验总结的决策树。

WAM 设计选择决策树 你的首要目标是什么? (选择最重要的一个) 零样本泛化 实时控制 数据效率 跨具身体 有大视频模型? (Wan 14B 级别) 没有 DreamZero 14B WAM 未见任务 39.5% Motus 光流桥接 六层数据金字塔 训练时用视频? (推理时都不用) 否/级联 要理论 保证? 不必 GigaWorld 因果掩码保证 360ms, 3Hz Fast-WAM 训练想象推理跳 190ms, 5Hz DiT4DiT 级联双 DiT 167ms, 6Hz 有多少示范? 极少 (50条) 中等 Cosmos Policy 50 条微调 + planning 提升 UWM 协同训练 OOD +12pts 需要 3D/深度? X-WAM 4D + ANS 深度监督互补 DreamZero 30min 适配 play data 迁移 附加考量 长程任务? LingBot-VA 因果 KV cache 50Hz 动作输出 要最简架构? PAD 联合去噪, 概念验证 661M, 入门友好 需要 Planning 能力? Cosmos Policy World Model + Value Fn + Best-of-N 注: 多个方法可能同时满足你的需求,选择应结合可用算力和数据条件

简短总结一下。WAM 领域不到两年(从 PAD 2024.11 到 X-WAM 2026.04),就从"概念验证"走到了"多条成熟路线并行"。核心共识是:视频预测作为训练时的物理监督信号极其有价值,但推理时是否需要生成视频则因场景而异。追求极致实时性的部署场景,Fast-WAM / GigaWorld / DiT4DiT 的"训练时想象、推理时跳过"路线最实用。追求零样本泛化和跨平台迁移的研究场景,DreamZero 的大模型路线最有前景。X-WAM 向 4D 的扩展、Cosmos Policy 的 planning 能力、Motus 的光流中介,则各自在不同方向上开辟了新的可能性。