Cosmos Policy 阅读笔记
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning — Moo Jin Kim et al. (NVIDIA & Stanford), 2026
摘要
这是一篇关于"把视频生成模型变成机器人策略"的工作。NVIDIA 的 Cosmos-Predict2 是一个 2B 参数的视频扩散模型,原本只会"看一张图 + 文字描述,脑补后续帧"。Cosmos Policy 的做法是把机器人的动作、本体感知、未来状态预测乃至价值函数,全部编码成与视频帧同形状的 latent,塞进扩散序列。视频模型不用改任何架构,只需微调,就同时变成策略(输出动作)、世界模型(预测未来画面)和价值函数(给未来打分)。
效果上,LIBERO 仿真 98.5%、RoboCasa 67.1% 成功率、ALOHA 真实双臂任务 93.6% 平均分,全部刷新了当前最优。叠加 model-based planning(采样 8 个候选动作,用自身世界模型 + 价值函数选最优),困难任务再提升 12.5 个百分点。值得注意的是,这一提升源于用策略自身的部署经验(rollout data)精调世界模型,形成"做得越多、想得越准"的正循环。
一、Motivation
想象你在操控一对双臂机器人叠衣服。叠衣服步骤多(抓边 → 对折 → 再折 → 推到桌中间),精度要求高(抓偏 1 厘米就全歪),动作还有多种可行解(先折左边还是先折右边都行)。现有的 VLA(Vision-Language-Action)模型虽然强,但骨架是语言模型,学过的是文字和静态图的对应关系,对"物理世界随时间怎么变"天然缺乏感知。
视频生成模型则不同。Cosmos-Predict2 这类模型在海量网络视频上训练过,已经学会了"手碰杯子 → 杯子动""布料被拉 → 褶皱方向"等时空因果关系。如果这种先验能直接迁移到机器人控制,策略对物理世界的理解会强很多。
然而,之前把视频模型用于机器人的工作(Video Policy、UWM、Genie Envisioner 等)都需要改架构:加动作解码器、改 attention 结构、搞多阶段训练。每一步改动都可能破坏预训练学到的东西,也增加工程复杂度。Cosmos Policy 的出发点是一个极简主张:如果把所有新信息都伪装成"视频帧",模型就只需要做它最擅长的事,预测下一帧。零架构修改。
二、现存问题
- 多阶段训练繁琐:Video Policy、Genie Envisioner 先微调视频模型,再训练动作解码器。训练 pipeline 有两三个阶段,每个阶段都有独立的超参和调参成本。
- 架构改动破坏预训练先验:加一个新的 action head 或 inverse dynamics module,可能打断视频模型在预训练中形成的 attention pattern,导致时空先验部分失效。
- 策略、世界模型、价值函数分离:Dreamer、SAILOR 这类方案需要分别训练三个模型,推理时拼在一起做 planning,各自误差会叠加放大。
- VLA 缺乏物理时空先验:OpenVLA、$\pi_{0.5}$ 等 VLA 在大量机器人数据上微调语言模型,泛化性不错,但语言模型对"碰杯子杯子会怎么动"这种物理直觉天生不足,因为它是从静态图文对里学的。
- 数据效率差距:RoboCasa 上其他方法需要 300-3000 条 demo,Cosmos Policy 仅用 50 条 human demo 就达到最高成功率,说明视频先验确实能大幅降低数据需求。
四、方法详解
Figure 1: Cosmos Policy 总览。微调视频扩散模型,同时预测动作、未来状态和价值函数,零架构修改
4.1 Latent Frame Injection:把一切伪装成帧
Figure 2: Latent Frame Injection 示意。多视角图像和新模态被编码为 latent frame,插入扩散序列中
Cosmos-Predict2 的输入是一串 latent frame(每帧形状 $H' \times W' \times C'$,其中 $C'=16$)。图像先经过 Wan2.1 VAE 编码成 latent,然后加噪、去噪。
Cosmos Policy 的核心操作:在这串 latent 中,插入新的"假帧"。具体地,一个完整的 latent 序列长这样:
[占位空白] [当前本体感知] [当前腕部相机] [当前左相机] [当前右相机] | [动作 chunk] [未来本体感知] [未来腕部相机] [未来左相机] [未来右相机] [价值]
其中,图像帧正常走 VAE 编码。非图像模态(本体感知、动作、价值)这样编码:
- 先归一化到 $[-1, +1]$
- 把向量展平后复制 $\frac{H' \times W' \times C'}{K \times d_{act}}$ 份($K$ 是 action chunk 长度,$d_{act}$ 是动作维度),填满一个 $H' \times W' \times C'$ 的 latent volume
- 直接覆写对应位置的 latent frame
简单说:把一个低维向量"铺满"一个 latent 帧的全部空间,让扩散模型当做普通帧去处理。
推理时反向操作:取出对应位置的 latent,在所有副本上求均值,再反归一化回原始尺度。图像类模态还需要过 VAE 解码器;非图像模态(动作、价值)不需要 VAE 解码,直接平均即可,因为训练时就是在 latent 空间里直接注入的。
4.2 联合训练:一个模型三个角色
Cosmos Policy 用一个统一的 Diffusion Transformer 同时学三件事:
策略训练(50% batch):给定当前观测 $s$(conditioning),预测动作 $a$、未来状态 $s'$、价值 $V(s')$。
$$\pi(a, s', V(s') \mid s)$$策略:看到当前状态,同时输出"做什么"(动作)、"做完后世界变什么样"(未来状态)、"这个未来有多好"(价值)。
世界模型训练(25% batch):给定当前观测 $s$ 和动作 $a$(conditioning),预测未来状态 $s'$ 和价值 $V(s')$。
$$p(s', V(s') \mid s, a)$$世界模型:知道了"当前状态"和"要做的动作",预测"世界会变成什么样"。
价值函数训练(25% batch):给定完整前缀 $s, a, s'$(conditioning),预测价值 $V(s')$。
$$p(V(s') \mid s, a, s')$$价值函数:知道了当前状态、动作、和未来状态,预测"这条轨迹最终能拿多少奖励"。
三个角色共享同一套权重,区别只在于哪些 latent frame 是 conditioning(不加噪)、哪些是 target(加噪后让模型去噪恢复)。这个设计很巧妙:conditioning mask 就是角色的开关。
价值函数的监督信号用 Monte Carlo return:
$$V(s') = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{k=t}^{H} \gamma^{k-t} R(s_k, a_k) \mid s_t = s \right] = \mathbb{E}_{\tau \sim \pi} \left[ \gamma^{H-t} R(s_H, a_H) \mid s_t = s \right]$$价值 = 从当前时刻到任务结束的折扣累积奖励。在稀疏奖励设定下(只有最后一步有奖励),简化为 $\gamma^{H-t}$ 乘以终末奖励。
另外,策略和世界模型都带有辅助目标:策略不仅预测 $a$,还预测 $s'$ 和 $V(s')$;世界模型不仅预测 $s'$,还预测 $V(s')$。消融实验(Table 4)显示这些辅助目标带来 1.5% 的成功率提升。
4.3 噪声分布调整
原始 Cosmos-Predict2 用 log-normal 噪声分布($\ln(\sigma) \sim \mathcal{N}(1.39, 1.2^2)$),对视频生成足够好。但对机器人动作预测来说,高噪声水平的训练权重太低了。扩散过程从 $\sigma_{\max}=80$ 开始去噪,如果模型在高噪声区域训练不够,第一步去噪就不准,误差会级联放大。
解决方案是混合分布:0.7 概率从原始 log-normal 采样,0.3 概率从 $[1.0, 85.0]$ 的均匀分布采样,为高噪声区域补充训练。推理时把 $\sigma_{\min}$ 从 0.002 提高到 4,跳过最后几步精细去噪,效果反而更好,因为低噪声区域的信噪比太低了。
4.4 Model-Based Planning
Cosmos Policy 的 planning 流程(best-of-N):
- 策略模型采样 $N=8$ 个候选 action chunk
- 对每个候选动作,用世界模型预测 3 个未来状态(ensemble)
- 对每个未来状态,用价值函数预测 5 个价值估计(ensemble)
- 对 15 个价值估计做"多数表决均值"(majority mean):先用阈值判断多数预测成功还是失败,然后只对多数组的值取均值
- 选价值最高的动作执行
关键细节:planning 用的世界模型和价值函数是在策略部署经验(rollout data)上额外微调过的,并非原始的 base checkpoint。原因在于 base 模型只见过示范数据里"成功"的轨迹,对"失败"长什么样没有概念。用 rollout 数据(包括失败轨迹)微调后,世界模型能更准确地预测"如果做错了世界会变成什么样",价值函数也能更准确地区分好坏。
推理延迟:在 8 张 H100 上并行搜索,一次 planning 大约 4.9 秒。实际部署时机器人先暂停约 1 秒出动作、再执行 2 秒的 action chunk(ALOHA 平台 25Hz、50 步)。
五、实验结果
Cosmos Policy 在三个评测平台上全面超过了现有方法。
LIBERO 仿真(Table 1)
四个子集(Spatial / Object / Goal / Long)各 10 个任务,每个 50 条 demo,3 个随机种子共 6000 次试验。Cosmos Policy 平均成功率 98.5%,其中 Object 子集 100.0%,Long 子集(长时间任务)97.6%。比最强 VLA baseline CogVLA(97.4%)高 1.1 个百分点,比 $\pi_{0.5}$(96.9%)高 1.6 个百分点。
RoboCasa 仿真(Table 2)
24 个厨房操作任务,只用 50 条 human demo(其他方法用 300-3000 条 + 合成数据),平均成功率 67.1%。比用了 300 条 demo 的 GR00T-N1(49.6%)和用了 3000 条的 DP-VLA(57.3%)都高。数据效率是 Cosmos Policy 在这个基准上最显眼的优势。
ALOHA 真实机器人(Figure 4, Table 3)
Figure 4: ALOHA 真实机器人四任务得分。Cosmos Policy 总分最高,在后两个难任务上优势明显
四个双臂操作任务(放东西到盘子、叠衣服、放糖果进碗、放糖果进自封袋),185 条 demo 训练一个策略,101 次试验评测。Cosmos Policy 平均分 93.6(百分制,不是成功率),比第二名 $\pi_{0.5}$(88.6)高 5 个百分点。
"放糖果进碗"上 Cosmos Policy 89.6 分,Diffusion Policy 32.8、OpenVLA-OFT+ 21.6。该任务糖果分散、抓取顺序多样,扩散模型对动作多模态性的建模优势充分体现。"放糖果进自封袋"上 Cosmos Policy 85.4 分,$\pi_{0.5}$ 仅 61.5 分。这一任务需要毫米级精度开袋子、放东西进去,$\pi_{0.5}$ 的 L1 回归不够精细。
消融实验(Table 4, Table 5)
关键发现:
- 预训练权重是最大的增益来源:从零训练掉 3.9 个百分点(LIBERO),且从零训练的版本在真实机器人上动作抖动严重,研究者不得不中止评测。
- 辅助 loss 贡献 1.5 个百分点(LIBERO):让策略在预测动作时也预测未来状态和价值,提供了额外的梯度信号。
- 未来状态预测是最关键的辅助信号(RoboCasa Table 5):去掉世界模型和价值函数的训练样本,成功率从 67.1% 掉到 64.0%;进一步去掉辅助价值监督,掉到 62.5%;如果只预测动作(去掉所有未来状态和价值目标),掉到 44.4%,降幅达 22.7 个百分点。
Model-Based Planning(Figure 7)
Figure 7: Planning 对比。Model-based planning(V(s'))在两个困难 ALOHA 任务上平均提升 12.5 分
在"放糖果进碗"和"放糖果进自封袋"两个困难任务上:
- Base Cosmos Policy(无 planning):平均 59.5 分
- + Model-Free Planning(Q(s,a)):平均 65.7 分(+6.2)
- + Model-Based Planning(V(s')):平均 72.0 分(+12.5)
Model-based 比 model-free 好,原因在于它能先"想象"未来画面再打分,而非直接从当前状态和动作估 Q 值。当 rollout 数据量有限时,在更低维空间(future state → value)上学习比在高维空间(state + action → Q)上学习更稳定。
六、总结
Cosmos Policy 证明了一件事:大型视频扩散模型可以通过纯微调(零架构修改)直接变成强力机器人策略,同时兼任世界模型和价值函数。这打开了一条路,即用越来越强的视频基础模型直接"升级"机器人策略,无需每次重新设计架构。
遗留问题:推理较慢(单步 0.61-0.95 秒,planning 近 5 秒),不适合快速动态任务;planning 目前只做一步 best-of-N,缺少多步 tree search;模型规模受限于 2B 参数,更大的视频模型能否带来更大提升仍未可知。
七、Insight
视频扩散模型的扩散过程本身就是一种"表示所有模态的通用语言"。动作是一种信号,状态是一种信号,价值也是一种信号。只要能把它们塞进同一个 latent 空间、让同一个去噪过程同时恢复,模型就不需要区分"这是动作"还是"这是图像"。去噪就是理解。
这个洞见比 Cosmos Policy 本身更深远:它暗示未来的 foundation model for robotics 可能不需要像现在的 VLA 那样有专门的 action head,也不需要像 Dreamer 那样训练专门的世界模型。一个足够大的生成模型加上合适的 conditioning scheme,就能同时做策略、想象、评估。"通用生成"比"专用模块"更有潜力。
八、启发
- 迁移:如果你在做 VLA 策略,可以考虑把 action prediction 从"语言模型 decode token"换成"在 latent 空间做扩散"。Cosmos Policy 证明了扩散过程对多模态动作分布的建模比 L1/L2 回归强得多,尤其是在有多种合理抓取方式的任务上。明天可以试:把 VLA 的 action head 换成一个轻量扩散头,看对多模态任务的成功率有没有提升。
- 混搭:Cosmos Policy 的 latent frame injection 思路可以搬到任何 latent 视频模型上。如果你有一个已经微调好的视频模型(比如在特定环境上训过的),可以不改架构,直接注入新模态做策略学习。最小实验:拿一个开源的视频扩散模型(比如 Open-Sora),用 latent injection 加入 action,看能不能在简单模拟环境里训出策略。
- 反转:大家默认 VLA 需要大量机器人动作标注数据才能泛化。Cosmos Policy 用 50 条 demo 在 RoboCasa 上超过了用 3000 条数据的方法,说明预训练视频先验的迁移价值可能被严重低估了。如果手头数据少,不一定要追着 VLA 的数据量跑,视频模型路线的性价比可能更高。
九、关键引用
[Section 1] "Since video models are effective at modeling complex, high-dimensional, multimodal distributions and can generate temporally coherent videos with hundreds of frames, we hypothesize that their learning algorithms are well-suited for representing actions alongside other modalities."
视频模型擅长建模复杂、高维、多模态的分布,能生成时间上连贯的几百帧视频。我们猜测,它的学习算法天然适合在处理视频的同时也处理动作。
[Section 4.1] "Rather than designing new model components or making architectural modifications as done in prior works, we propose to encode additional modalities as new latent frames that are directly injected into the video model's latent diffusion sequence."
与其像前人那样加新组件、改架构,我们直接把新模态编码成 latent frame 注入视频模型的扩散序列,模型无从区分自己在处理动作还是视频帧。
[Section 5.2] "This finding suggests that video model priors provide a strong initialization for control policies without requiring additional action-labeled robot data."
视频模型的预训练先验为控制策略提供了很强的初始化,无需额外的动作标注机器人数据就能起效。
[Section 5.3] "We observe a 12.5-point average score increase in the two challenging manipulation tasks which involve multimodal grasp sequences and high-precision manipulation."
在两个涉及多模态抓取和高精度操作的困难任务上,model-based planning 平均提升了 12.5 分。
[Section 6, Limitations] "We observe substantially lower inference speed when using model-based planning (e.g., around 5 seconds to produce one action chunk), which may limit applicability to dynamic tasks."
Model-based planning 推理很慢(约 5 秒出一个 action chunk),这限制了在动态任务上的适用性。
十、Q&A
输入:当前时刻的多视角相机图像(如腕部相机 + 两个第三人称相机)、机器人本体感知(关节角 / 末端位置,ALOHA 为 14 维)、语言任务描述(T5-XXL embedding)。图像经 Wan2.1 VAE 编码为 latent frame(形状 $H' \times W' \times 16$),本体感知归一化后复制填充为同形状 latent。
输出:(1) action chunk $a \in \mathbb{R}^{K \times d_{act}}$(如 ALOHA 上 50 步 x 14 维 = 700 维向量);(2) 未来状态 $s'$(未来图像的 latent + 未来本体感知);(3) 价值标量 $V(s') \in [0, 1]$。三个输出都编码为 latent frame,扩散去噪后提取。
以 action chunk 为例:原始动作是 $K \times d_{act}$ 的向量。先归一化到 $[-1, +1]$,展平成一维向量,然后复制 $\frac{H' \times W' \times C'}{K \times d_{act}}$ 份让总长度恰好等于一个 latent frame 的体积 $H' \times W' \times C'$,最后 reshape 成 $H' \times W' \times C'$ 的 3D 体积。推理时反向:取 latent volume,在所有副本上求均值(降噪更稳定),再反归一化。
价值更简单,只是一个标量,直接在整个 latent volume 上取均值、反归一化到 $[0, 1]$ 即可。
Cosmos-Predict2 原本就支持 conditioning mask:视频生成时,第一帧(给定的起始图像)用 mask 保持不加噪,后续帧加噪让模型预测。Cosmos Policy 只是改变了"哪些位置是 conditioning、哪些是 target"的划分方式,并在序列中插入了新的 latent frame。Diffusion Transformer 本身的网络结构(self-attention、cross-attention、feed-forward)一个权重、一个层都没动,因此称为零架构修改是成立的。
完全共享权重,区别仅在于输入时的 conditioning mask 不同。策略训练时只有当前观测 $s$ 不加噪(其余都加噪);世界模型训练时 $s$ 和 $a$ 不加噪;价值函数训练时 $s, a, s'$ 都不加噪。模型看到的始终是同一种"去噪"任务,只是"已知信息"和"要预测信息"的边界在变,相当于用不同的 input masking 来隐式切换角色。
视频预训练让模型学会了两件事:(1) 空间结构,即物体外观、相对位置关系和遮挡处理;(2) 时间连贯性,即上一帧到下一帧的过渡应平滑而非跳变。当动作被编码为 latent frame 后,时间连贯性先验会让连续帧(即连续时间步的动作)之间自然平滑,就像视频帧之间不会突然跳画面。从零训练的模型没有这一先验,动作序列可能在相邻时间步之间不连贯,表现为抖动。
原始 log-normal 分布集中在中低噪声水平,高噪声($\sigma > 40$)的训练样本很少。扩散生成从 $\sigma_{\max}=80$ 开始,第一步去噪时模型几乎面对纯噪声,若这一步做不好,误差会传递到后面每一步。对视频生成来说,第一步不精确问题不大(视觉上差别微小);但对动作预测来说,一个微小的初始偏差就可能导致机器人打滑或碰撞。混合分布为高噪声区域补充了 30% 的训练权重,提高了第一步去噪的准确度。
每个候选动作会得到 15 个价值预测(3 个世界模型预测 x 5 个价值函数预测)。这些预测可能是双峰的,比如 8 个预测成功(value 接近 1)、7 个预测失败(value 接近 0)。如果直接取均值会得到约 0.5,既不代表成功也不代表失败。Majority mean 先用阈值判断多数是成功还是失败(相当于投票),再只对多数组取均值。这对双峰分布更鲁棒,给出的是"最可能结果"的期望值,而非所有可能结果的混合。
两者的区别在于:V(s') 先用世界模型想象未来画面 $s'$,再从 $s'$ 评估价值;Q(s,a) 直接从当前状态 $s$ 和动作 $a$ 估计价值,不经过世界模型。当 rollout 数据量有限(此处约 650 条)时,Q 函数需要从高维输入(state + action)直接映射到 value,容易过拟合。而 model-based 路线把问题分解成两步(state + action → future state,future state → value),每步输入维度更低,学习更稳定。论文原话是 "we attribute its ability to leverage learned environment dynamics for more effective and sample-efficient planning"。
作者自己提了几个限制。(1) 推理速度:单步 0.61-0.95 秒,planning 近 5 秒,不适合需要 >10Hz 反馈的动态任务(比如接飞来的球)。(2) planning 只做一步 look-ahead,没有多步 tree search,对需要长期策略规划的任务(比如收拾一整间房间)可能不够。(3) rollout 数据依赖:planning 的世界模型需要用策略自身的部署数据微调,冷启动时 planning 质量不高。(4) 论文没测泛化到全新环境 / 全新机器人的能力,尚不清楚视频先验能否跨域迁移。
这是一个开放问题。Cosmos Policy 只用了 2B 的 Cosmos-Predict2,已经超过了 7B 级别的 VLA(如 $\pi_{0.5}$)。从 scaling 的角度看,更大的视频模型应有更强的时空先验,理论上微调后策略更好。但实际存在几个障碍:(1) 推理成本,2B 模型已经需要 H100 才能实时,70B 会慢到难以部署;(2) 微调成本,当前用 8-64 张 H100 训 48 小时,更大模型的微调开销可能不现实;(3) 视频预训练与机器人微调之间的分布差距,模型更大不代表这个 gap 更容易弥合。这个问题需要实验来回答,论文尚未给出答案。