GigaWorld-Policy 阅读笔记
GigaWorld-Policy: An Efficient Action-Centered World–Action Model — GigaAI Team, 2026
摘要
这篇论文来自 GigaAI,核心工作是把视频生成模型改造成一个既快又好的机器人操作策略。他们提出的 GigaWorld-Policy 是一种"以动作为中心"的 World–Action Model(WAM)。训练时,模型同时学两件事:预测下一步该做什么动作,以及预测未来的视觉画面会怎么变。推理时则可以只输出动作、跳过未来视频生成,从而大幅降低延迟。
核心痛点在于,之前的 World-Action Model 推理时必须把未来视频也生成出来,导致速度极慢(Motus 要 3.2 秒才出一步动作),无法实时闭环控制。GigaWorld-Policy 通过一套因果注意力掩码设计,让动作 token 看不到未来视频 token,训练时共享参数、推理时独立解码。最终实现 0.36 秒出一步动作(比 Motus 快 9 倍),真实世界任务成功率还高了 7%。
有意思的是,他们还发现未来视频预测并非越多越好,预测太多帧反而会掉分。
一、Motivation
想象你在遥控一只机械臂收拾桌子。每发一条指令,机械臂要等 3 秒才动一下,因为它在脑补"桌面未来会变成什么样",得把整段未来视频在脑子里播完才敢出手。碗还没放稳,手已经飘走了,中间等太久、闭环纠错跟不上。这就是当前 World-Action Model 的核心困境:想得太多、动得太慢。
在 GigaWorld-Policy 之前,做机器人策略大致有两条路。第一条是 VLA(Vision-Language-Action):直接从图像和语言指令映射到动作,速度快($\pi_{0.5}$ 只要 225ms),但训练信号只有稀疏的动作标签,模型容易学到"浅层的条件反射"而非真正理解物理世界的变化。第二条是 WAM(World-Action Model):把视频生成能力引入策略学习,训练时预测未来画面,理论上能获得更稠密的物理监督,代价则是推理时也得生成视频,速度直接慢 10 倍以上。
GigaWorld-Policy 的切入点很朴素:训练时让未来视频帮忙提供稠密监督,推理时把视频生成关掉只输出动作。关键在于如何在一个统一模型里实现"训练时联合、推理时可拆",这正是因果注意力掩码所解决的问题。
二、现存问题
纯 VLA 只靠动作标签学习,缺少对"环境会怎么变"的预测约束。模型容易学到看似合理但物理上站不住的动作,例如桌面抓取时手臂轨迹歪了却碰巧碰到目标物体,在干净背景下能用,换个场景就崩。
现有 WAM(如 Motus、VideoVLA)推理时必须生成未来视频帧,需要迭代扩散采样。Motus 单步推理 3231ms,Cosmos-Policy 1413ms,对于需要实时闭环控制的机器人任务根本不可用。
两阶段方法(先生成视频、再用逆动力学模型提取动作)存在误差传播链:像素级预测的小偏差被逆模型放大,长时间后动作轨迹严重偏移。
大多数 WAM 直接在机器人数据上从头训练,没有充分利用互联网规模的视频预训练来注入物理先验,数据效率低。
四、方法详解
总览:一个模型、两个目标、推理可拆
GigaWorld-Policy 构建在 5B 参数的扩散 Transformer 骨干上(Wan 2.2 5B)。训练时模型同时学两件事:(1)给定当前观测和语言指令,预测未来 48 步的动作 chunk;(2)给定同样的上下文加上预测的动作,前馈式地预测未来若干帧的视觉画面。推理时只解码动作 token,跳过视频 token,因为因果注意力掩码保证了动作生成不依赖未来视频。
4.1 输入 Token 化
机器人有三个视角的摄像头(左、前、右)。为了不改骨干架构,GigaWorld-Policy 把三个视角拼成一张复合图:
$$o_t^{comp} = Compose(o_t^{left}, o_t^{front}, o_t^{right})$$
把三个视角的图像横向拼接成一张图,让模型在一个统一的空间坐标下处理跨视角信息。
复合图和未来帧都送进同一个 VAE 编码器,得到视觉 token $T_o$(当前观测)和 $T_f$(未来帧)。同时,机器人的关节状态和动作分别经过线性投射得到 $T_s$ 和 $T_a$,语言指令经过预训练语言编码器得到 $T_l$。
未来帧的预测并非逐帧密集进行,而是每隔 $\Delta$ 步采样一帧,总共预测 $K = \lfloor 48/\Delta \rfloor$ 帧。当 $\Delta=12$ 时只预测 4 帧未来,既保留了关键演变信息,又避免了冗余。
4.2 共享 Transformer + 因果注意力掩码
所有 token 类型($T_o, T_s, T_a, T_f$)过同一组 Transformer 层,共享 Q/K/V 矩阵。这与 Motus 的 MoE 设计不同:Motus 给不同模态分配不同的 expert 模块,而 GigaWorld-Policy 让所有 token 在同一个注意力空间里交互,保持了预训练视频模型的计算 profile 不变。
核心设计是因果注意力掩码,它控制了"谁能看到谁":
具体规则:
- $T_o$ 和 $T_s$:互相能看到(当前观测和状态本来就一起的),但看不到 $T_a$ 和 $T_f$
- $T_a$(动作 token):能看到 $T_o$ 和 $T_s$,但看不到 $T_f$。这是关键,保证了动作生成不依赖未来视频
- $T_f$(未来视频 token):能看到所有人($T_o, T_s, T_a$),因为预测未来画面确实需要知道当前场景和即将执行的动作
这个掩码之所以关键,是因为它让动作分支在训练时享受视频分支带来的参数共享和梯度信号(通过共享 Transformer 权重),推理时又可以完全独立运行,无需生成任何视频 token 即可输出动作。
不同 token 类型用不同的位置编码:视觉 token 用 2D 空间位置编码(因为它们来自图像网格),状态和动作 token 用 1D 时间位置编码。语言指令 $T_l$ 不参与自注意力序列,而是通过 cross-attention 作为外部条件输入。
4.3 训练:课程预训练 + Flow Matching
训练分三个阶段,像课程学习一样逐步注入知识:
阶段一:互联网视频预训练。起点是 Wan 2.2 5B,一个在海量网络视频上训练好的视频生成模型,已经学会了"物体掉下来会怎样""手推东西会怎么动"等物理先验。
阶段二:具身数据预训练。在约 10,000 小时的机器人视频和第一人称人类视频上继续训练(只训练视频目标),让模型适应机器人视角、末端执行器的视觉模式。数据来源见下:
阶段三:目标机器人后训练。在目标机器人的任务轨迹数据上,同时训练动作预测和视频预测两个目标。动作用 Flow Matching 建模,视频同样用 Flow Matching,两者共享同一个扩散 Transformer 的去噪过程。
训练目标是两个 flow-matching loss 的加权和:
$$\mathcal{L}_{all} = \lambda_{video} \mathcal{L}_{video} + \lambda_{action} \mathcal{L}_{action}$$
总 loss 等于视频预测 loss 乘以权重加上动作预测 loss 乘以权重。后训练时 $\lambda_{action}=5$,$\lambda_{video}=1$,表明动作预测是主任务。
其中视频 loss 是:
$$\mathcal{L}_{video} = \mathbb{E}_{s,\epsilon}\Big[\|g_\Theta(z_f^{(s)},\, s \mid T_s, T_o, T_a, T_l) - \dot{z}_f^{(s)}\|^2\Big]$$
模型在给定当前状态、观测、动作和语言条件下,去预测未来帧 latent 的 flow velocity。$s$ 是 flow 时间步,$z_f$ 是未来帧的 VAE latent。
动作 loss 类似:
$$\mathcal{L}_{action} = \mathbb{E}_{s,\epsilon}\Big[\|g_\Theta(a^{(s)},\, s \mid T_s, T_o, T_l) - \dot{a}^{(s)}\|^2\Big]$$
模型在给定当前状态、观测和语言条件下,预测动作的 flow velocity。注意条件中没有 $T_a$ 和 $T_f$,因为动作 token 看不到未来视频(掩码设计的结果)。
4.4 推理:只解码动作
推理时,先把语言指令 $T_l$、状态 $T_s$、当前观测 $T_o$ 打包成条件上下文 $w_t = (T_l, T_s, T_o)$。然后只采样动作 token $T_a$,从高斯噪声 $a^{(0)} \sim \mathcal{N}(0, I)$ 出发,沿学到的速度场积分到 $s=1$,得到最终的动作 chunk $\hat{a}_{t:t+p-1}$。
$$\frac{da^{(s)}}{ds} = g_\Theta(a^{(s)},\, s \mid w_t), \quad s \in [0,1]$$
从纯噪声出发,沿模型预测的速度场积分一步,得到去噪后的动作序列。推理时不需要实例化任何视频 token。
如果需要视频预测(比如做可视化或者 debug),可以额外解码 $T_f$,复用 action denoising 阶段的 KV cache,额外开销很小。
五、实验结果
5.1 速度 vs 成功率:速度效率帕累托前沿
一句话:GigaWorld-Policy 在 A100 上单步推理 360ms,比 Motus(3231ms)快 9 倍,比 Cosmos-Policy(1413ms)快 4 倍;同时真实世界成功率 0.83,比 Motus(0.76)高 7 个点,比 $\pi_{0.5}$(0.69)高 14 个点。
5.2 仿真实验(RoboTwin 2.0)
在 RoboTwin 2.0 的 50+ 项操作任务上,GigaWorld-Policy 平均成功率 0.86(Clean)和 0.85(Randomized),和 Motus 的 0.89 / 0.87 基本持平,但推理快 9 倍。相比 $\pi_{0.5}$ 的 0.43 / 0.44,提升超过 40 个百分点。
5.3 真实世界实验
在 AgileX PiPER 6-DoF 机械臂上测试了四个任务:清理桌面(0.90)、扫描二维码(0.75)、清扫垃圾(0.75)、叠碗(0.90)。平均 0.83,超过 Motus 的 0.76 和 $\pi_{0.5}$ 的 0.69。
5.4 数据效率
GigaWorld-Policy 只用 10% 的训练数据,就达到了 $\pi_{0.5}$ 用全部数据时的成功率水平。这说明视频预测带来的稠密监督确实让模型学得更高效。
5.5 消融实验
预训练的重要性(Table 7):从零训练只有 0.45 SR;加上视频模型初始化到 0.57;只用具身预训练到 0.73;两者都用到 0.83。视频预训练和具身预训练的收益是互补的。
未来帧预测数量的影响(Table 5):固定动作 chunk 长度 48,调整采样间隔 $\Delta$。$\Delta=0$(不预测未来帧)只有 0.60 SR;$\Delta=12$(预测 4 帧)达到峰值 0.83;$\Delta=48$(只预测 1 帧)反而降到 0.76。说明适度的未来预测是最优的,太多反而有害。
因果掩码 vs 全自注意力(Table 6):两者 SR 基本相同(0.81 vs 0.83),但因果掩码的视频生成质量更高(PSNR 28.41 vs 27.87,SSIM 0.901 vs 0.892)。更重要的是:因果掩码保证了推理时可以跳过视频生成,全自注意力做不到这一点。
六、总结
核心贡献:提出了一种"以动作为中心"的 World-Action Model 设计范式。训练时联合学习动作预测和视频预测以获得稠密监督,推理时通过因果注意力掩码实现视频分支可选关闭,大幅降低延迟。
新可能:证明了大规模视频生成模型可以通过课程预训练被改造成高效的机器人策略骨干,且不需要推理时付出视频生成的代价。
未解问题:论文只在 6-DoF 夹爪臂上测试,未验证灵巧手、双臂、人形机器人等更复杂具身形态上的效果。此外,5B 参数的模型即使跳过视频也需要 360ms,对于 100Hz+ 控制频率的任务(如力控接触操作)仍然不够快。
七、Insight
这篇论文最值得带走的认知是:未来预测的价值不在于预测本身,而在于它作为训练信号对动作策略的正则化效果。推理时不需要真的"看到"未来,训练时"学过怎么预测未来"这个过程本身,就已经把物理约束编码进了共享的 Transformer 权重里。就像外科医生不需要在手术时模拟每一步的生理反应,但在学校里学过的解剖学知识已经内化到了手感中。
八、启发
迁移:因果掩码实现训推分离
这套"训练时多任务联合、推理时按需裁剪"的设计模式可以直接搬到其他多模态生成场景。例如在 VLA 里加一个深度预测分支或力反馈预测分支,训练时让它们提供额外梯度,推理时关掉,用因果掩码保证主任务不依赖辅助分支。明天可以试的事:给你的 VLA 模型加一个未来 state 预测头,用类似的因果掩码训练,看 action 质量是否提升。
混搭:课程预训练 pipeline
"互联网视频 → 具身视频 → 目标机器人"这条三阶段课程预训练路径是通用的。如果你手上有一个新的机器人平台但只有 50 条 demo,可以先用大规模视频模型初始化 + 公开机器人数据集做第二阶段预训练,再在你的少量数据上后训练。论文证明了这条路比从零训练高出 38 个百分点。
九、关键引用(双语对照)
[Section 1] "Instead of making action prediction overly reliant on explicit video generation, GigaWorld-Policy leverages future visual dynamics as a reasoning signal and a source of dense supervision."
GigaWorld-Policy 不让动作预测过度依赖显式的视频生成,而是把未来视觉动态当作一种推理信号和稠密监督的来源。— 第 1 节 Introduction
[Section 1] "Crucially, at inference time, explicit future-video prediction is optional: the model can be executed in an action-only mode that directly produces control commands without rolling out long sequences of video tokens."
关键在于,推理时未来视频预测是可选的。模型可以以"纯动作模式"运行,直接输出控制指令,不需要生成长序列的视频 token。— 第 1 节 Introduction
[Section 3.2] "Unlike MoE-based designs, we process all token types with a single shared stack of Transformer blocks. In particular, all tokens share the same query, key, and value projection matrices at every layer, which tightly couples action tokens with visual evidence."
和 MoE 路线不同,我们让所有类型的 token 共享同一组 Transformer 层和同一套 Q/K/V 投射矩阵。这让动作 token 和视觉证据紧密耦合在一起。— 第 3.2 节 Architecture
[Section 4.5] "The results demonstrate a consistent improvement in success rate once feed-forward dynamics modeling is enabled, with performance increasing from 0.65 to 0.83, yielding an absolute gain of 0.18."
一旦启用前馈式动态建模,成功率就稳定提升:从 0.65 涨到 0.83,绝对提升 18 个百分点。不过也发现预测太多帧反而会掉分。— 第 4.5 节 Ablation Study
[Section 4.4] "GigaWorld-Policy reaches the maximum success rate achieved by the VLA using only 10% of the training data."
GigaWorld-Policy 只用 10% 的训练数据,就达到了 VLA 用全部数据时的最高成功率。— 第 4.4 节 Data Efficiency
十、Q&A
模型是一个 5B 参数的因果扩散 Transformer(基于 Wan 2.2 5B)。输入包含四类 token:当前三视角复合图像经 VAE 编码得到的视觉 token $T_o$、机器人关节状态 token $T_s$、语言指令 token $T_l$(通过 cross-attention 注入)以及待去噪的动作 token $T_a$。输出是去噪后的连续动作 chunk(48 步,对应 6-DoF 夹爪动作)。训练时还额外输出未来视频帧 token $T_f$,推理时可以不生成。简单说,输入是"当前看到什么 + 要做什么任务 + 当前姿态",输出是"接下来 48 步的动作序列"。
掩码分三层规则:(1)动作 token $T_a$ 只能注意到当前观测 $T_o$ 和状态 $T_s$,看不到未来视频 $T_f$;(2)未来视频 $T_f$ 可以注意到所有 token 包括 $T_a$;(3)$T_o$ 和 $T_s$ 互相可见但看不到 $T_a$ 和 $T_f$。这意味着动作生成在信息流上完全不依赖未来视频,即使推理时把 $T_f$ 全部移除,动作的条件分布也不会变。如果改用全自注意力,$T_a$ 在训练时会从 $T_f$ 那里偷信息,推理时 $T_f$ 缺失就会导致分布偏移。
三阶段课程:(1)互联网视频预训练,直接复用 Wan 2.2 5B 的权重,这是在海量网络视频上训练的视频生成模型;(2)具身数据预训练,约 10,000 小时,包括 EGO4D(3500h 第一人称人类视频)、Open X-Embodiment(3500h)、Agibot(2500h 真实机器人)、EgoDex(800h)、DROID(350h)等,此阶段只训练视频生成目标;(3)后训练,在目标机器人(PiPER 6-DoF 臂)的 50 条 demo 轨迹上联合训练动作预测和视频预测。递进逻辑是:通用物理 → 机器人视角 → 目标任务。
论文没有直接对比其他扩散范式,但 Flow Matching 的优势在于:(1)它定义在 $[0,1]$ 的直线路径上($x^{(s)} = (1-s)\epsilon + sx$),比 DDPM 的马尔可夫链更简洁,采样步数可以更少;(2)Wan 2.2 本身就是用 Flow Matching 训练的视频生成模型,保持一致避免了预训练-后训练之间的 paradigm gap;(3)对连续动作空间的建模比较自然,$\pi_{0.5}$ 也用了类似的 Flow Matching 做动作生成。
Table 5 显示:$\Delta=0$(不预测)SR=0.60;$\Delta=8$ SR=0.78;$\Delta=12$ SR=0.83(最优);$\Delta=48$ SR=0.76。不预测未来帧时模型退化成纯动作解码器,缺少动态监督。预测太多帧($\Delta$ 太小→帧数太多)可能因为:(1)视频 loss 分散了太多训练容量;(2)密集预测引入冗余信号(相邻帧差异很小),梯度噪声增加;(3)过长预测 horizon 的像素级预测不可靠,反而引入错误梯度。$\Delta=12$ 是"刚好够看到关键变化"的甜点。
两个关键差异。第一,Motus 用 MoT(Mixture-of-Transformer)架构,给不同模态分配不同的 expert 模块,推理时必须运行所有 expert,包括视频生成部分;GigaWorld-Policy 用共享 Transformer + 因果掩码,推理时可以不实例化视频 token,直接跳过视频解码路径。第二,Motus 推理时需要双向注意力来联合生成动作和视频,而 GigaWorld-Policy 的因果掩码让动作分支是单向的,可独立执行。两点叠加,推理 token 数从"动作 + 视频"降到"只有动作",latency 从 3231ms 降到 360ms。
两方面价值。(1)梯度信号:视频预测 loss $\mathcal{L}_{video}$ 的梯度会反传到共享的 Transformer 权重上,这些权重也被动作分支使用。视频预测要求模型理解"执行这个动作后场景会怎么变",这种理解被编码进了共享参数里,间接提升了动作预测的质量。(2)表征质量:因为未来视频 token $T_f$ 在训练时需要 attend 到动作 token $T_a$,这迫使 $T_a$ 必须编码足够丰富的动作语义(否则 $T_f$ 无法正确预测未来画面)。相当于视频分支对动作分支施加了一个"你的表征必须足够好,好到能被我用来预测未来"的隐式正则化。
360ms 对应约 2.8Hz 的控制频率。对于桌面抓取、整理这类任务是可用的,论文也确实在真实世界拿到了 0.83 的成功率。但对高频力控任务(如打磨、精密装配),通常需要 100Hz+(10ms 级),360ms 远远不够。灵巧手操作(如旋转笔、翻扑克牌)通常需要 20-50Hz,也差一个数量级。论文选择了动作 chunk(48 步一次预测),相当于"预测一段轨迹然后开环执行"来摊薄延迟,但也引入了开环期间无法纠错的风险。
论文附录 A 提到预训练阶段在公开数据集上跑了 6000 GPU 小时,batch size 256,使用 AdamW 优化器。骨干是 5B 参数的 Wan 2.2 5B。如果用 A100-80G GPU,6000 GPU 小时大约相当于 64 张 A100 跑 4 天,或者 128 张跑 2 天。按云计算价格(约 $2/GPU·h)算,预训练阶段约 $12,000。后训练阶段的计算量论文没有明确给出,但因为只有 50 条 demo 数据,预计远小于预训练。总体复现门槛主要在预训练的 GPU 资源上。
几个潜在失效场景:(1)高遮挡 / 视觉不确定性高的任务,例如在袋子里摸东西,视觉预测本身就不靠谱,视频分支可能引入噪声梯度而非有效监督;(2)需要精确力控的任务,模型是纯视觉输入,没有力/触觉反馈,且 2.8Hz 控制频率太低;(3)长 horizon 任务,48 步 action chunk 开环执行,中间遇到意外扰动无法实时纠正;(4)跨具身迁移,当前只在 PiPER 6-DoF 臂上验证,后训练阶段高度依赖目标平台的 demo 数据,换一个机器人需要重新后训练。最薄弱的假设可能是"视频预测质量与动作质量正相关",在某些场景下(如视觉变化和动作不是单射关系),这个假设未必成立。