DiT4DiT 阅读笔记

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control — Teli Ma et al., 2026

2026-06-02 · 原文 · PDF

这篇工作在讲什么

当前主流的机器人策略模型(VLA)都建立在视觉-语言大模型上,本质上是拿一个看图说话的模型来控制机械臂。问题在于,这些模型的视觉表征来自静态图文对,对物理世界的时空动态几乎一无所知。物体怎么滑、怎么倒、怎么碰,全靠下游那点机器人数据从头学。

DiT4DiT 换了一条路:用视频生成模型当机器人的"物理直觉"底座。具体做法是把一个生成未来视频的 Diffusion Transformer(Video DiT)和一个生成动作的 Diffusion Transformer(Action DiT)串成级联架构。Video DiT 在去噪过程中抽取中间层特征,直接灌给 Action DiT 做动作预测,不需要等视频完全生成出来。两个 DiT 通过一套"双流 flow-matching"目标联合训练。

效果上,DiT4DiT 在 LIBERO 上平均成功率 98.6%、RoboCasa-GR1 上 50.8%,均为当前最优;在宇树 G1 实物人形机器人上也有明显优势。更值得关注的是,它只用了 GR00T-N1.5 约 15% 的预训练数据,样本效率提升超过 10 倍,收敛速度快 7 倍,说明视频生成确实是比语义对齐更高效的物理先验来源。

一、Motivation

想象你在训练一个机械臂把杯子放进抽屉:给它看一张图、一段文字指令,它需要输出一连串关节角度。当前的 VLA 模型(比如 GR00T、pi_0、CogVLA)本质上是在一个"看图说话"的大模型上微调。这个底座确实擅长理解"图里有什么",但完全不擅长预测"接下来物理上会发生什么"。杯子滑了、抽屉被推偏了、手指碰到杯沿了,这些连续的物理动态,静态图文预训练根本没见过。

之前的解法主要两条路。一是语义对齐(Grounding),训练模型识别物体位置和类别,但只解决了"看见什么",没解决"接下来会怎样"。二是隐式世界建模(FLARE 风格),让 VLM 预测未来帧的潜在特征来对齐,但仍然受限于 VLM 的静态表征能力,对连续的像素级物理动态捕捉不足,数据效率也不够好。

作者注意到一件事:视频生成模型天然就是物理模拟器。Cosmos、Wan 这类视频 DiT 在海量互联网视频上训练过,已经把"物体掉落、液体流动、手指抓取"这些物理规律编码进了参数里。如果把这些物理先验直接拿来做机器人策略的骨架,而非仅仅作为数据增强的辅助,效果会怎样?

二、现存问题

四、方法详解

DiT4DiT framework overview

Figure 2:DiT4DiT 整体架构。Video DiT 接收当前观测+语言指令,生成未来视频的同时抽取中间去噪特征;Action DiT 以这些特征为条件,预测动作轨迹。两个 DiT 通过双流 flow-matching 联合训练。

4.1 核心思路:预测视频动态 → 反推动作

传统 VLA 的思路是 $\pi_\theta(\mathbf{a}_t \mid \mathbf{o}_t, l)$,即看到当前画面和指令,直接出动作。DiT4DiT 拆成两步:

  1. 正向:Video DiT 预测"接下来世界会变成什么样",生成未来帧的潜在表示 $\mathbf{o}_{t+1}$
  2. 反向:Action DiT 从这个"未来预测"中提取物理线索,反推"要做什么动作才能到达那个未来"

关键在于,Action DiT 不需要等 Video DiT 把视频完全去噪生成出来。它只需要 Video DiT 在去噪过程中某个特定步骤的中间隐状态。这些隐状态既包含全局结构信息("桌上有杯子和抽屉"),又包含动态信息("杯子正在被移向抽屉"),是比最终生成帧更丰富的表征。

4.2 双 DiT 架构

Video DiT:基于 Cosmos-Predict2.5-2B 初始化,包含一个时空 VAE(把视频帧压缩到潜在空间)和一个视频扩散 Transformer。VAE 把观测帧 $\mathbf{o}_t$ 和未来帧 $\mathbf{o}_{t+1}$ 压缩为潜在向量 $\mathbf{z}^0_t, \mathbf{z}^0_{t+1}$。DiT 用 flow-matching 参数化,条件来自 Cosmos-Reason1 的多层语言嵌入。

关键设计:不用最终生成的视频,而是把 DiT 当特征提取器。在去噪的 forward pass 里,用一个 hook 机制截取第 18 层的中间激活:

$$\mathbf{h}^{\tau_f}_t = \mathcal{H}\big[v^{\text{video}}_\theta\big](\mathbf{z}^{\tau_f}_{t+1}, \tau_f \mid \mathbf{z}^0_t, l\big)$$

这个公式的含义是:把未来帧在噪声水平 $\tau_f$ 处的加噪潜在向量和当前观测一起喂给 Video DiT,再用 hook 截取第 18 层的隐藏状态 $\mathbf{h}^{\tau_f}_t$。该隐藏状态就是 Action DiT 的"视觉条件"。

Action DiT:从 GR00T-N1 的动作头改造而来,是一个独立的 flow-matching DiT-B 模型(16 层 Transformer,hidden dim 2560)。它用 AdaLN(Adaptive Layer Normalization)注入扩散时间步信息,用 cross-attention 层注意力到 Video DiT 提取的视觉特征 $\mathbf{h}^{\tau_f}_t$。

输入序列由三部分拼接:机器人本体感知状态嵌入(关节角度等)、加噪的动作轨迹、一组可学习的"未来 token"(作为运动规划的压缩查询)。输出是动作序列的速度场,通过 Euler 积分逐步去噪得到最终动作轨迹。

4.3 三时间步解耦设计

Tri-timestep design

Figure 3:三时间步设计。视频模块用均匀采样 $\tau_v$(覆盖完整去噪轨迹),动作模块用 Beta 分布采样 $\tau_a$(集中在关键控制阶段),特征提取用固定时间步 $\tau_f$。

联合训练的难点在于:视频生成需要在各种噪声水平下都学好(所以 $\tau_v$ 均匀采样 $\mathcal{U}[0,1]$),但特征提取需要稳定。如果每次给 Action DiT 的视觉条件都来自不同噪声水平,动作模块根本学不稳。

解法是三个独立的时间步

4.4 联合训练目标

总 loss 是两个 flow-matching loss 的加权和:

$$\mathcal{L}^{\text{total}}_t = \underbrace{\mathbb{E}_{\tau_a, \epsilon}\Big[\big\|v^{\text{action}}_\phi(\mathbf{a}^{\tau_a}_t, \tau_a \mid \mathbf{h}^{\tau_f}_t, s) - (\epsilon - \mathbf{a}^0_t)\big\|^2\Big]}_{\text{Action Flow Matching Loss}} + \lambda\underbrace{\mathbb{E}_{\tau_v, z}\Big[\big\|v^{\text{video}}_\theta(\mathbf{z}^{\tau_v}_{t+1}, \tau_v \mid \mathbf{z}^0_t, l) - (z - \mathbf{z}^0_{t+1})\big\|^2\Big]}_{\text{Video Flow Matching Loss}}$$

左半是动作损失:Action DiT 预测的速度场应将噪声动作搬运到真实动作;右半是视频损失:Video DiT 预测的速度场应将噪声潜在向量搬运到真实未来帧。$\lambda$ 平衡两者。训练时 VAE 和文本编码器冻住,只更新两个 DiT。

4.5 推理流程

推理时分两步走:

  1. 从纯噪声开始,Video DiT 跑 $N_v$ 步 Euler 积分生成未来帧潜在向量(同时可以解码出可视化的未来视频)
  2. 但 Action DiT 不等视频生成完。它另起一份噪声,只跑一次 Video DiT 的 forward pass(固定在 $\tau_f$),用 hook 取出隐状态,然后跑 $N_a$ 步 Euler 积分生成动作轨迹

消融实验显示,一步去噪取特征就是最优的。步数越多,隐状态越接近像素级重建,反而丢失了对控制有用的抽象物理信息。这是一个反直觉但非常重要的发现。

五、实验结果

Proxy comparison

Figure 1:三种训练代理目标的对比。Video generation(视频生成)在收敛速度(快 7 倍)和数据效率(高 10 倍以上)上都明显优于 Grounding 和 FLARE 风格。

LIBERO 仿真 benchmark

DiT4DiT 在 LIBERO 四个子集上的平均成功率达到 98.6%,超过所有已有方法(包括 CogVLA 的 97.4%、GR00T-N1.5 的 94.1%)。特别是在 LIBERO-Long(需要长时域执行)上拿到 97.6%,比次优方法高出 5 个百分点以上,说明视频生成骨干对时序一致性的理解确实比 VLM 骨干强得多。

RoboCasa-GR1 仿真 benchmark

在 24 个桌面操作任务上,DiT4DiT 平均成功率 50.8%,超过 GR00T-N1.5(41.8%)和 GR00T-N1.6(40.8%)约 9-10 个百分点。对比参数量匹配的 Qwen3DiT baseline(36.2%),提升 14.6 个百分点,说明不是模型更大,而是视频骨干本身就是更好的表征来源。

宇树 G1 实物实验:7 项任务成功率 (%) DiT4DiT GR00T-N1.5 Qwen3DiT 100 75 50 25 0 85 80 10 Insert Plate 90 80 0 Drawer Int. 75 25 0 Arrange Flr. 40 15 10 Move Spoon 100 90 10 Pick&Place 50 40 0 Box Packing 60 25 5 Stack Cup Source: Figure 5 of the paper. 越高越好。

宇树 G1 实物实验

在 7 项真实世界任务上(如图),DiT4DiT 全面压过 GR00T-N1.5 和 Qwen3DiT。几个亮点:

消融实验

Ablation studies

Figure 8:三项消融。(a) 特征提取层:第 18 层最优,早期层缺物理语义、末期层过度特化于像素重建。(b) 去噪步数:1 步就是最优,多步反而过拟合到具体未来。(c) 联合训练 vs 解耦训练:联合训练的 t-SNE 时序分离度翻倍(silhouette 0.09→0.17)。

去噪步数 vs 成功率(RoboCasa 5 任务平均) 50 46 42 38 50 48 46 44 43 39 1 2 4 8 16 32 Denoise Steps Source: Figure 8(b). 步数越少越好 — 1 步去噪即最优。

三个关键消融发现:

效率

DiT4DiT 可训练参数 2.2B,比 Qwen3DiT(2.3B)和 GR00T-N1.5(2.7B)都少。实物部署频率 6 Hz(A100 单卡),比 Qwen3DiT(9 Hz)和 GR00T-N1.5(13 Hz)慢,这是视频骨干的代价。不过由于不训练 LLM 组件,固定任务下语言特征可以缓存,实际可进一步提速。

六、总结

核心贡献:证明了视频生成模型可以作为机器人策略的物理先验骨干,通过双 DiT 级联 + 联合 flow-matching 训练,在端到端框架里同时优化视频理解和动作生成。

打开了什么:用 15% 的预训练数据就超过了用 100% 数据的 GR00T-N1.5。这意味着随着视频生成模型继续 scaling,机器人策略的 scaling 可以"搭便车",不再完全依赖昂贵的机器人标注数据。

遗留问题:6 Hz 的部署频率对高动态任务可能不够;论文没有探索更大的视频骨干(当前只用了 2.5B 的 Cosmos);zero-shot 泛化虽然不错,但仅在同一机器人体型上测试,跨体型迁移未知。

七、Insight

视频生成的"中间产物"比"最终产物"更有用。直觉上你会觉得,要利用视频模型的物理理解,应该让它生成完整的未来视频,再从视频里提取信息。但 DiT4DiT 发现:去噪过程中间层的隐状态,也就是那些"还没完全变成像素"的半成品表征,反而是最好的控制条件。1 步去噪就是最优,步数越多效果越差。这说明生成模型的价值不在于它生成了什么,而在于它在生成过程中学到的、从噪声到结构的映射本身。这个映射的中间状态,天然就是一种"既有全局结构、又有物理动态、但还没过拟合到具体像素"的黄金表征。

八、启发

迁移:如果你在做任何需要物理先验的机器人策略(不限于操作,导航、locomotion 同理),可以试试把现成视频 DiT(Cosmos、CogVideo、Wan)的中间层隐状态作为视觉 backbone 的替代。不需要改视频模型架构,只需要加一个 hook 加一个轻量动作头。这意味着视频模型社区的每一次 scaling 进展都可以直接转化为机器人策略的性能提升,不用等机器人数据集 scaling 追上来。

反转:"中间层比最终层好"这个发现挑战了一个常见做法:我们通常用模型的最后一层输出做下游任务。对于生成式骨干,也许应该系统性地探索各层的表征质量,尤其是中间层,它们可能在抽象性和具体性之间取到了最佳平衡。可以试试在自己的 diffusion 模型上逐层 hook 出隐状态、跑一遍 probing 任务,看哪一层对下游目标最有信息量。

九、关键引用

[Abstract]
"Instead of relying on reconstructed future frames, DiT4DiT extracts intermediate denoising features from the video generation process and uses them as temporally grounded conditions for action prediction."

DiT4DiT 不等视频生成完,而是从视频去噪过程的中间状态里抽取特征,直接作为动作预测的时序条件。
[Section 5.4, Ablation on denoise steps]
"Interestingly, a single denoising step yields the highest performance, with the success rate monotonically degrading as the number of steps increases... excessive iterative denoising forces the hidden states to over-commit to the pixel-level details of a specific reconstructed future."

一步去噪就是最好的,步数越多成功率越低。多步迭代让隐状态过度锁定到某个具体的像素级未来,反而丢失了对控制有用的泛化信息。
[Section 3]
"The generative proxy task allows the model to converge to high-performance policies much faster (up to 7x), capturing essential manipulation cues early in the training process. Also, it demonstrates a robust scaling behavior: demonstrating significantly higher data efficiency (up to > 10x) than semantic-centric based methods."

视频生成作为代理任务,让模型收敛到高性能策略的速度快了 7 倍,训练初期就抓住了操作的关键线索。数据效率比语义对齐方法高 10 倍以上。
[Section 5.4, Joint vs. decouple training]
"Joint training forces the visual backbone to embed a continuous, physics-aware temporal progression, directly empowering the action policy to reason about long-horizon execution and state transitions."

联合训练迫使视频骨干编码出一条连续的、感知物理的时序进展线,这直接让动作策略获得了长时域推理和状态转移的能力。

十、Q&A

Q1:DiT4DiT 的两个 DiT 分别负责什么?它们之间的信息流是怎样的?

Video DiT 负责"想象未来",输入当前观测帧和语言指令,在潜在空间里去噪生成未来视频帧。Action DiT 负责"规划动作",输入机器人状态和加噪动作序列,通过去噪生成动作轨迹。

信息流是单向的:Video DiT 第 18 层的隐藏状态通过 hook 机制提取出来,经 cross-attention 注入 Action DiT。Action DiT 不直接看原始图像,它的"视觉"全部来自 Video DiT 的中间表征。但训练时梯度可以从 Action DiT 的 loss 反向传播到 Video DiT(通过 hook 特征的计算图),这就是"联合训练"的关键。

Q2:为什么用中间去噪步骤的隐状态、而不是最终生成的视频帧作为 Action DiT 的条件?

最终生成的视频帧是像素级的具体画面,"过拟合"到了一个特定的未来。而控制需要的是更抽象的信息:物体大致在哪、力的方向、接触关系。中间隐状态恰好处于"已有全局结构信息、但还没细化到像素"的状态,是抽象性和信息量的最佳平衡点。消融实验直接证明了这一点:1 步去噪(最抽象)最好,32 步(最接近像素)最差,成功率单调递减。

Q3:三个时间步 τ_v、τ_f、τ_a 各自的采样策略为什么不同?

三个时间步服务于三个不同目标。$\tau_v$ 均匀采样 $\mathcal{U}[0,1]$,因为视频生成需要在所有噪声水平下都学好去噪,这是标准扩散训练的要求。$\tau_f$ 取固定值,因为 Action DiT 需要稳定的视觉条件;如果每次给它的特征来自不同噪声水平,相当于输入分布在不断抖动,学不稳。$\tau_a$ 用 Beta 分布,因为动作 flow matching 的不同阶段重要性不同:靠近数据端(低噪声)的精细调整比靠近噪声端的粗略方向更关键,Beta 分布可以把更多训练预算分配到关键阶段。

Q4:DiT4DiT 的训练数据是什么?为什么说它数据效率比 GR00T 高 10 倍以上?

仿真实验中,DiT4DiT 直接在目标数据集上从零训练(RoboCasa 24K episodes,LIBERO 1693 episodes),不用任何外部动作数据预训练。真实世界实验中,它先在 Fourier_GR1_Pretrain_10K(241,450 episodes)上预训练、再在 1,400 episodes 实物数据上微调。而 GR00T-N1.5 用了约 160 万 episodes 的大规模预训练数据。DiT4DiT 的预训练数据量只有 GR00T 的约 15%,但在 RoboCasa 上成功率比它高 9 个百分点,这就是"10 倍数据效率"的来源。核心原因是视频骨干(Cosmos-Predict)已经从互联网视频里学到了物理先验,不需要大量机器人数据从头建立物理理解。

Q5:联合训练为什么比分开训练好?动作 loss 是怎么影响视频骨干的?

分开训练(decouple)时,Video DiT 只优化视频重建目标,会学到对"生成好看视频"最优的表征,但这不一定对"出好动作"最优。联合训练时,Action DiT 的 loss 通过 hook 提取的特征反向传播到 Video DiT,相当于给视频骨干加了一个额外信号:"你的中间表征不仅要能重建像素,还要包含对控制有用的物理信息。"t-SNE 可视化显示,联合训练后隐特征按任务时序(早→中→晚)清晰分簇,silhouette 分数翻倍(0.09 → 0.17),说明视频骨干确实被"教会"了编码时序进展信息。

Q6:Qwen3DiT 在真实世界几乎全面崩溃,这说明了什么?

Qwen3DiT 用 Qwen3-VL 2B 作为视觉骨干(VLM),搭配和 DiT4DiT 完全相同的 Action DiT。它在仿真中还能拿到 36.2%(RoboCasa 平均),但真实世界中多数任务成功率为 0%。这是一个非常干净的对照实验,因为唯一的变量就是视觉骨干。结论很清楚:VLM 的静态图文表征无法将仿真中学到的语义理解迁移到真实物理交互中,它对物理动态的理解太浅了。视频骨干在仿真预训练阶段就学到了可迁移的物理先验(如碰撞响应、接触力学),所以 sim-to-real 迁移效果远好于 VLM 骨干。

Q7:为什么第 18 层是最佳特征提取层?如果换一个不同的视频骨干,这个最优层还会是 18 吗?

Cosmos-Predict2.5 的 DiT 有 28 层。消融显示:2-8 层的特征主要编码低级纹理(边缘、颜色),缺乏物理语义;24-28 层过度特化于像素重建目标,丢弃了对控制有用的抽象信息。第 18 层恰好在中间偏深的位置,兼具高层语义和物理结构信息。如果换了骨干(比如层数不同的 DiT),最优层大概率会变,但"中间偏深"这个规律可能是可泛化的。类似的现象在 NLP 领域也有先例,BERT 的中间层在很多探测任务上优于最后一层。

Q8:DiT4DiT 的 6Hz 部署频率够用吗?有没有加速的空间?

6 Hz 对桌面操作任务基本够用(人手操作的典型频率也就几 Hz),但对高动态任务(如接球、快速避障)可能不足。论文提到了一个优化方向:因为不训练 LLM 组件,固定任务下语言特征可以预提取并缓存,避免每次推理都过一遍文本编码器。此外,1 步去噪即最优的发现本身就是一个效率红利:Action DiT 的条件提取只需要 Video DiT 的一次 forward pass,不需要完整的视频采样循环。未来还可以探索 Video DiT 的蒸馏、量化,或者只用浅层子网络做特征提取。

Q9:DiT4DiT 的 zero-shot 泛化能力来自哪里?为什么它能处理没见过的物体?

泛化能力主要有两个来源。第一,视频骨干在海量互联网视频上预训练过,见过各种物体的各种物理行为,即使微调时没见过某个杯子,骨干已经"知道"杯子形状的物体在被抓取时会怎样运动。第二,联合训练让隐特征编码的是物理交互的抽象模式(如"抓取-移动-放置"的力学轨迹),而非特定物体的像素外观。论文在 RoboCasa 中做了一个干净的泛化实验:只用瓶子训练,零样本迁移到罐头、杯子、牛奶瓶、酒瓶。DiT4DiT 在 ToDrawerClose 上 54.5%,Qwen3DiT 只有 32%,说明视频骨干确实把物理行为模式(而非物体身份)作为了迁移的基础。