LingBot-VA 阅读笔记
Causal World Modeling for Robot Control — Lin Li, Qihang Zhang, Yiming Luo et al. (Ant Group), 2026
这篇工作在讲什么
LingBot-VA 是一个基于自回归扩散的视觉-动作世界模型,专为机器人操作设计。它要解决的核心问题是:现有 VLA(Vision-Language-Action)策略只会"看到什么就做什么",不会"先想象未来再决定怎么动"。换句话说,这些策略缺乏对物理世界因果性的建模,导致长程任务记忆差、精细操作不稳定。
LingBot-VA 的做法是将视频预测和动作推理交织在同一条自回归序列中。模型先"想象"下一步环境会变成什么样(视频预测),再从这个想象中"反推"该做什么动作(逆动力学)。两条流共享注意力,通过 KV cache 保持长程记忆,通过因果 mask 保证时间方向正确。架构基于 Mixture-of-Transformers,视频流用 Wan2.2-5B 初始化,动作流更窄更轻。
结果很强:RoboTwin 2.0 双臂仿真上平均成功率达到 92.93%(Easy)和 91.55%(Hard),比第二名高 4-5 个点;LIBERO 上平均 98.5%;真实世界六类任务(长程、精密、可变形物体)只用 50 条示教就全面超过强 baseline。值得注意的是,任务越复杂(Horizon 越长),LingBot-VA 的优势越大。Horizon=3 时比第二名高出 8-9 个百分点。
一、Motivation
想象一个场景:你让机器人做一顿早餐,先抓盘子,再抓面包,放进烤面包机,拿叉子,按下按钮,然后等着。这是一个需要十几步操作、持续一两分钟的任务。如果机器人只根据"当前看到什么"来决定"下一步做什么",就很容易做到第五步便忘了第三步做了什么,最终陷入重复或跑偏。
现有的 VLA 策略(如 $\pi_0$、OpenVLA、$\pi_{0.5}$)本质上都是"刺激-反应"模式:输入当前观察,输出动作。它们把视觉理解、物理推理、运动控制全压缩到一个统一的监督信号里学,论文称之为"表征纠缠"(representation entanglement)。模型被迫用同一套参数同时学"这个杯子长什么样"和"手该往哪移 3 毫米",结果两边都学不到位,泛化也差。
另一条路是用视频世界模型:先预测未来会发生什么画面,再从画面推动作。UniSim、UVA、Gen2Act 都这么试过,但各有各的问题。有的一次性生成一整段未来(开环,出错了来不及纠偏);有的每个 chunk 独立生成(没有跨 chunk 的记忆,长程漂移);有的在 chunk 内部用双向注意力(违反因果性,未来影响了过去的预测)。这三类问题,作者分别称为反应性缺口(reactivity gap)、长程记忆缺失(limited long-term memory)、因果性违反(causality violation)。
LingBot-VA 的切入点是:物理世界本身就是因果和自回归的,当前状态只取决于过去,不会被未来影响。因此世界模型也应该用自回归而非双向注意力来建模。这一选择同时解决了上述三个问题:自回归天然支持实时反馈(每步都能接收真实观察),KV cache 天然保持全部历史记忆,因果 mask 天然保证时间方向正确。
二、现存问题
- 表征纠缠:现有 VLA 把视觉理解和运动控制塞进同一个前馈映射 $a_t \sim \pi_\theta(\cdot | o_t)$,模型被迫用一套参数同时学高维视觉语义和低维电机指令,导致样本效率低、泛化差,精细操作不稳定。
- 开环漂移:视频世界模型(UVA、Gen2Act)一次生成整段未来视频,中间不插入真实观察,预测越长偏差越大,执行时无法纠偏。
- 跨 chunk 失忆:chunk-based 方法(如双向扩散分段生成)各段独立,不共享 KV cache,长程任务中前面做了什么后面看不到,时间一致性崩坏。
- 因果性违反:chunk 内双向注意力让未来 token 可以影响过去 token 的预测,与物理世界的因果方向矛盾,闭环执行时容易产生分布偏移。
- 推理延迟:视频扩散生成计算量大,逐帧去噪严重拖慢实时控制频率。机器人要么等模型算完再动(同步阻塞),要么用过时预测(naive 异步),两种方案都不理想。
四、方法详解
回到早餐场景:LingBot-VA 在每一步做两件事。先"想象"接下来几帧厨房会变成什么样(视频流),再从这个想象中"反推"手该怎么动(动作流)。想象完一步,拿到真实的相机画面,接着想象下一步。整个过程就像一个人一边做饭一边在脑子里过下一步画面。
Figure 1. LingBot-VA 全景:Internet/Robot 视频预训练 + 自回归视频-动作世界模型 + 实时部署
4.1 两阶段分解:先想象,再反推
传统 VLA 直接学 $a_t \sim \pi_\theta(\cdot | o_t)$,即看到当前画面就直接输出动作。
即"看到什么就做什么"的条件映射。
LingBot-VA 拆成两步:
$$\text{Stage 1: } o_{t+1} \sim p_\theta(\cdot | o_{\le t}), \quad \text{Stage 2: } a_t \sim g_\psi(\cdot | o_t, o_{t+1})$$
第一步预测"未来画面会变成什么样"(视觉动力学);第二步从"当前画面"和"想象的未来画面"之间的差异反推"需要什么动作"(逆动力学)。
这种分解的好处是:Stage 1 可以利用海量互联网视频学习物理先验(杯子倒了会怎样、物体被推会往哪滑),不需要机器人数据;Stage 2 才需要配对的观察-动作数据,但只需学"画面差对应什么动作",问题大大简化。
Figure 2. 框架总览:Language Model 提供任务指令,Video Model 自回归生成未来视频 chunk,Action Model 从中解码动作
4.2 自回归视频-动作世界建模
关键设计是将视频 token 和动作 token 交织成一条自回归序列。每帧视频 $z_t$ 后面跟着 $\tau$ 个动作 token $a_{t,1}, ..., a_{t,\tau}$($\tau=4$,即视频每 4 帧降采样一次,动作保持原频率),然后是下一帧视频 $z_{t+1}$,以此类推。
视频状态转移条件化了动作历史:
$$z_{t+1:t+K} \sim p_\theta(\cdot | z_{\le t}, a_{<t})$$
预测未来 K 帧视频状态时,不仅看过去的视频,还看过去做了什么动作。这让模型能把"机器人的手往左推了 3cm"这个信息编码进对未来画面的预测里。
逆动力学也条件化了完整历史:
$$a_{t:t+K-1} \sim g_\psi(\cdot | \hat{z}_{t+1:t+K}, z_{\le t}, a_{<t})$$
反推动作时,不仅看当前和未来的视频,还看之前做过什么。这对"之前已经抓过盘子,现在该抓面包"这种多步推理至关重要。
4.3 MoT 架构:双流共享注意力
LingBot-VA 用 Mixture-of-Transformers(MoT)架构实现双流。视频流用 Wan2.2-5B 初始化($d_v = 3072$,30 层),动作流同深度但更窄($d_a = 768$,宽度为 1/4)。两条流在每一层独立计算 QKV,然后通过跨模态注意力融合:动作 token 先投影到视频维度,参与联合自注意力,再投影回来。
这种非对称设计有道理:视频信息高维复杂(需要大容量),动作信息低维简单(只有 30 维末端执行器姿态)。整个动作网络只增加约 350M 参数,总模型 5.3B。
Figure 3. 因果注意力 mask:每个 token 只能看到时间上在它之前的 token,保证自回归因果结构
4.4 训练:Teacher Forcing + 噪声增强
训练方式很自然:将交织的视频-动作序列当作一条"语言",用 teacher forcing 做标准的 next-token 预测。因果 mask(如图 3)保证每个 token 只能看到前面的 token。
视频和动作的 loss 分别是 flow matching 速度场回归:
$$\mathcal{L}_{\text{dyn}} = \mathbb{E}\left[\|v_\theta(z_{t+1}^{(s)}, s, \tilde{z}_{\le t}, a_{<t}|c) - \dot{z}_{t+1}^{(s)}\|^2\right]$$
视频流的训练目标:预测"从噪声到干净视频"的速度场,条件是历史视频(可能加了噪声)、历史动作和语言指令。
$$\mathcal{L}_{\text{inv}} = \mathbb{E}\left[\|v_\psi(a_t^{(s)}, s, \tilde{z}_{\le t+1}, a_{<t}|c) - \dot{a}_t^{(s)}\|^2\right]$$
动作流的训练目标:预测"从噪声到干净动作"的速度场,条件是当前和下一帧视频以及历史信息。
总 loss:$\mathcal{L} = \mathcal{L}_{\text{dyn}} + \lambda \mathcal{L}_{\text{inv}}$,其中 $\lambda = 1$。
Noisy History Augmentation 是一个巧妙的训练技巧:以 50% 概率给历史视频 token 加噪声($s_{\text{aug}} \in [0.5, 1]$)。这样推理时,动作解码不需要等视频完全去噪到 $s=1$,只去噪到 $s=0.5$ 就够了,去噪步数砍一半,速度翻倍。其直觉在于:动作推理不需要像素级完美的未来画面,粗略的语义结构就足够了。
4.5 推理:异步执行 + FDM 接地
推理时面临一个实际问题:视频扩散生成很慢,同步等待会让机器人干等。而朴素的异步方案(边执行边预测)又会导致模型依赖过时的预测,逐渐脱离现实。
Figure 4. 异步推理流水线对比:同步(A)阻塞等待 / 朴素异步(B-1)用过时预测 / FDM 接地异步(B-2)用真实反馈更新
LingBot-VA 为此设计了 FDM-grounded 异步推理:机器人执行当前 action chunk 的同时,模型并行预测下一个 chunk。关键改进在于增加了一步前向动力学模型(FDM):拿到真实观察 $z_{t-1}$ 后,不直接用来做预测,而是先用 FDM "想象" $z_{t-1}$ 在执行当前动作 $a_t$ 后会变成什么样的 $z_t$,再基于这个接地的预测做下一步。这相当于在异步流水线中插入了一次"真实世界校准"。
4.6 关键设计细节
动作网络初始化:直接随机初始化动作流会导致训练不稳定(梯度爆炸、收敛慢),因为动作 token 的输出分布一开始与视频 token 差距过大,联合注意力机制会被干扰。解决方案是用视频流的预训练权重按维度插值来初始化动作流,再乘以缩放因子 $\alpha = \sqrt{d_v / d_a}$ 保持输出方差一致。
可变 chunk 训练:训练时随机采样 $K \in [1, 8]$,让模型学会在不同时间尺度上做预测,推理时固定 $K=4$。较大的 K 减少自回归步数(更快),较小的 K 允许更频繁地插入真实反馈(更准)。
视频稀疏化:视频帧每 $\tau=4$ 帧降采样一次(从 50 Hz 到 12.5 Hz),动作则保持 50 Hz。每帧视频后跟 4 个动作 token,因此预测 K 帧视频就对应生成 $\tau K$ 个动作。
五、实验结果
5.1 RoboTwin 2.0(双臂仿真,50 个任务)
这是一个双臂协调操作的 benchmark,难度远高于单臂场景。所有方法在相同 post-training 条件下对比(50 条/任务 clean + 500 条/任务 hard 随机场景)。
几个关键观察:
任务越长,优势越大。Horizon=1 的简单任务中,LingBot-VA 比 Motus 高 3 个点左右;到了 Horizon=3 的长程任务(三步序列操作),Easy 上高出 8.2 个百分点(93.22 vs 85.0),Hard 上高出 9.1 个百分点(93.28 vs 84.2)。这表明自回归的 KV cache 记忆机制在长程任务上确实比 chunk-based 方法具有结构性优势。
5.2 LIBERO(四个子集,40 个任务)
在 LIBERO 上取得平均 98.5% 的成功率,其中 LIBERO-Object 99.6%、LIBERO-Long 98.5%,均超过此前最优的 X-VLA(98.1%)和 OpenVLA-OFT(97.1%)。尤其在需要长程记忆的 LIBERO-Long 子集上,98.5% 的成绩比 X-VLA 的 97.6% 又进一步拉开了差距。
5.3 真实世界六类任务
仅用 50 条示教做 post-train,即在六类任务上全面超过 $\pi_{0.5}$,长程任务(Make Breakfast、Unpack Delivery)优势尤为突出。真实世界部署的核心发现如下:
(1) 长程任务证明了 KV cache 记忆有效;(2) 精密任务(Insert Tubes、Pick Screws)证明了视频-动作共享表征的精度优势;(3) 可变形物体任务(Fold Clothes、Fold Pants)证明了视频世界模型提供了丰富的物理先验。
Figure 5. 真实世界部署结果:六类任务的 Progress Score 和 Success Rate,LingBot-VA(橙色)全面超过 $\pi_{0.5}$(绿色)
5.4 消融实验
消融揭示了三个关键因果链:
(1) FDM 接地 vs Naive 异步:Naive Async 在 Horizon=3 上直接崩到 32.9%(对比 93.2),FDM-grounded 则仍有 85.6%。这表明在长程任务中,模型一旦脱离真实反馈就会迅速漂移,FDM 这一步"校准"至关重要。
(2) 预训练的价值:如果用原始 WAN 不做联合视频-动作预训练而直接 fine-tune,Easy 掉到 80.6%、Horizon=3 掉到 67.6%。这说明 LingBot-VA 的 1.4T token 预训练为模型注入了丰富的视觉物理先验。
(3) 异步 vs 同步的效率:异步推理速度是同步的 2 倍,成功率却几乎不降(FDM-grounded 的差距主要在 Horizon=3 上才显现)。
5.5 样本效率与记忆测试
Figure 8. 样本效率对比:在不同数量示教下,LingBot-VA 始终优于 $\pi_{0.5}$,低数据时优势更大
在低数据(10 条示教)情况下,LingBot-VA 在"做早餐"任务上比 $\pi_{0.5}$ 高出 15.6% progress score(真实世界)和 10.3%(仿真)。视频生成 backbone 的预训练充当了强大的物理先验正则化:模型已经"看过"大量物体运动的视频,只需少量机器人数据来学"看到这种运动差异该出什么动作"。
时序记忆测试也很有趣:Wipe Plate(擦盘子恰好 6 次)中 LingBot-VA 成功率 100%,$\pi_{0.5}$ 仅 47%;Search Box(记住已经翻过的盒子)同样是 100% 对 50%。KV cache 确实把完整历史都记住了。
六、总结
LingBot-VA 的核心贡献在于证明了自回归的视频-动作世界模型比前馈式 VLA 和 chunk-based 双向扩散都更适合机器人长程操作。通过交织序列、因果 mask 和 KV cache,它同时获得了持久记忆、因果一致性和闭环反馈三重优势。
它打开的新可能是:视频生成预训练可以作为机器人策略的"物理先验引擎"。16K 小时的视频预训练,让 50 条示教就能迁移到新任务。沿着这条路,视频质量和分辨率的提升会直接转化为策略性能的提升。
留下的问题:(1) 推理速度仍然是瓶颈,即使有部分去噪和异步执行,大视频模型的计算量依然很重;(2) 目前只用视觉,缺少力、触觉、声音等多模态感知,对需要精细力控的任务(如拧螺丝的力矩反馈)无法覆盖;(3) 5.3B 参数的部署成本对嵌入式平台不友好。
七、Insight
"想象力"和"执行力"的最优耦合方式不是让它们合并成一个东西(前馈 VLA),而是让它们交替出现在同一条因果链上,保持概念上的独立(各有各的 loss),同时共享注意力和记忆。这与人脑的运动控制非常相似:你不会用"看到杯子"直接算出"手腕旋转 3.7 度",而是先在脑子里闪过"手握住杯子"的画面,然后身体自动调整姿态去实现那个画面。LingBot-VA 把这个直觉变成了一个可训练的架构。
八、启发
迁移:如果你在做 VLA 策略但苦于长程任务记忆差,不一定要加外部 memory module,可以试试把视频预测作为辅助任务加进序列,用 KV cache 来做记忆。即使不用完整的视频扩散,用轻量的潜在状态预测(类似 Motus 的 latent motion token)也可能通过同样的"交织自回归"获得记忆改善。明天可以试的事:在现有 VLA 的 action chunk 之间插入一个 latent next-state prediction head,看看长程任务是否改善。
反转:Noisy History Augmentation 的思路让人反思一个假设,即"推理时必须完全去噪才能做决策"。其实不必。对下游任务来说,粗糙的语义表征往往就够了。这意味着在其他扩散模型 pipeline 中也可以尝试"半去噪"策略来加速。
九、关键引用
[Section 1] "The physical world, however, is inherently causal and autoregressive: the present state depends only on the past, and we cannot observe the future before it occurs."
物理世界天生就是因果和自回归的:当前状态只取决于过去,我们不可能在未来发生之前观察到它。
—— 自回归设计的核心动机
[Section 3.2] "Unlike prior approaches that either decouple video prediction from action inference or rely on bidirectional diffusion within segments, our method unifies video and action within a single causal autoregressive framework, enabling persistent memory through KV cache and seamless integration of real-time observations."
与以往将视频预测和动作推理分开、或在段内用双向扩散的做法不同,我们把视频和动作统一到一条因果自回归框架中,通过 KV cache 实现持久记忆,同时能无缝接入实时观察。
—— 方法的核心 claim
[Section 3.3] "The key insight is that action prediction does not always require pixel-perfect reconstruction; instead, it can rely on robust semantic structures."
关键洞察是:动作预测不需要像素级完美的重建,粗略的语义结构就够了。
—— Noisy History Augmentation 和部分去噪的理论依据
[Section 4.4] "Notably, the improvement becomes more pronounced for longer-horizon tasks: at Horizon = 3, our method achieves gains of +8.2% (Easy) and +9.1% (Hard) over the second-best approach."
值得注意的是,任务越长提升越大:在 Horizon=3 上比第二名高出 8.2%(Easy)和 9.1%(Hard)。
—— 长程记忆优势的关键证据
[Section 6] "These results suggest that autoregressive video-action world modeling provides a principled foundation for learning generalizable manipulation policies, offering a compelling alternative to reactive VLA paradigms."
这些结果表明,自回归视频-动作世界建模为学习可泛化的操作策略提供了一个有原则的基础,是对"刺激-反应"式 VLA 范式的有力替代。
—— 论文的终极 claim
十、Q&A
本质区别在于中间是否有"想象"这一步。传统 VLA 是直接映射 $a_t \sim \pi(\cdot|o_t)$,看到什么就做什么,没有中间表征。LingBot-VA 拆成两步:先想象 $o_{t+1}$(这一步可以利用互联网视频学物理),再从想象推动作 $a_t \sim g(\cdot|o_t, o_{t+1})$(这一步只需少量配对数据)。关键不在于"多了一步",而在于这种分解让两个子问题各自变简单了:视频预测不需要知道电机怎么转,逆动力学不需要理解整个场景语义。
能力更强不等于更适合。双向注意力允许未来 token 影响过去 token,但在物理世界中,$t+1$ 时刻的状态不可能影响 $t$ 时刻。当你在闭环执行时不断插入真实观察,双向注意力会产生逻辑矛盾:已经生成的"过去预测"和新插入的"真实观察"不一致,mask 结构却允许两者互相影响。自回归的因果 mask 天然避免了这个问题,而且 KV cache 是自回归独有的,它零成本地提供了持久历史记忆,不需要额外的 memory module。
输入分为三部分。(1) 语言指令,用 frozen T5 编码后通过 cross-attention 注入。(2) 视频观察 $o_t$,通过 Wan2.2 的 Causal VAE 编码成 $z_t \in \mathbb{R}^{N \times C}$($N=192$ 个空间 token,经 $4 \times 16 \times 16$ 压缩 + patchify 降维 2x)。(3) 动作 $a_t \in \mathbb{R}^{30}$(双臂各 15 维:7 EEF + 7 关节 + 1 夹爪),通过单层 MLP 投影成 $\mathbb{R}^{D}$ 的 token 嵌入。视频 token 维度 $d_v=3072$,动作 token 维度 $d_a=768$。在 MoT 的联合注意力中,动作 token 先线性投影到 3072 维参与注意力,再投影回 768 维。输出方面:视频流输出下一 chunk 的视频 latent(去噪 3 步到 $s=0.5$),动作流输出 action chunk(去噪 10 步到 $s=1$),最终通过线性投影头映射到 30 维物理动作。
训练数据来自六个公开数据集的聚合:Agibot(移动操作)、RoboMind(多机型)、InternData-A1(仿真迁移)、OXE 子集(OpenVLA 数据)、UMI 数据(人类演示)、RoboCOIN(双臂协调),加上内部收集的数据,总计约 16K 小时。所有数据统一为 30 维动作表征(双臂各 15 维),单臂数据补零。预训练在这个整合数据集上消耗 1.4T token,而 post-training 只需目标任务的 50 条示教(约 5 分钟数据量)。
标准 flow matching 推理需要把噪声从 $s=0$ 去噪到 $s=1$(完全干净)。视频流用 Euler solver 走 3 步(每步 ODE 积分),动作流走 10 步。Noisy History Augmentation 在训练时以 50% 概率给历史视频加噪声($s_{\text{aug}} \in [0.5, 1]$),由此教会动作解码器从"半噪声"视频中提取动作。推理时视频只需去噪到 $s=0.5$(3 步变成约 1.5 步的有效工作量),动作预测质量不受影响。其直觉在于:动作推理只需要知道"物体往左移了、手臂张开了"这类语义信息,不需要知道"物体的纹理细节恢复到什么程度"。
Naive Async 的问题在于:模型在预测 $t+1$ 步时,用的是自己之前预测的视频 $\hat{z}_t$(而非真实的 $z_t$),因为真实观察还没拿到(机器人还在执行上一个 chunk)。一两步还行,但 Horizon=3 意味着这种"自己预测喂自己"会叠加三轮,累积误差让模型完全脱离现实。FDM 接地的做法是:拿到真实的 $z_{t-1}$ 后,用世界模型自身做一步前向预测,即"如果在 $z_{t-1}$ 上执行当前动作 $a_t$,下一帧会是什么?",从而得到一个"接地的" $z_t$。这个 $z_t$ 虽然也是预测,但锚定在了最新真实观察上,误差不会跨步累积。
论文没有报告具体的 FPS 数字,但架构上做了三件事来保证实时性。(1) 异步流水线:机器人执行当前 chunk 时模型在算下一个 chunk,计算时间被流水线覆盖掉了。(2) 部分去噪:视频只去噪到 $s=0.5$,步数减半。(3) KV cache:每步只需计算新 token 的注意力,历史 token 的 KV 已经缓存。动作流更小($d_a=768$ vs $d_v=3072$),计算量只有视频流的约 $1/16$。实际上 chunk size $K=4$,每个 chunk 对应 $4 \times 4 = 16$ 个动作($\tau=4$),因此只要 chunk 预测时间短于 16 个动作的执行时间($16/50\text{Hz} = 320\text{ms}$),就不会产生延迟。
这是一个方差保持(variance preserving)的标准技巧。视频网络的权重在 $d_v=3072$ 维上训练,输出方差大致正比于维度的某个函数。当把这些权重"截断"到 $d_a=768$ 维时(按维度插值),输出方差会发生变化。乘以 $\alpha = \sqrt{d_v/d_a} = \sqrt{3072/768} = 2$ 是为了让初始化后动作流的输出方差与视频流匹配,使两条流在联合注意力中不会因数值尺度不同而互相干扰。这与 He initialization 的思路一脉相承。