LingBot-VA 阅读笔记

Causal World Modeling for Robot Control — Lin Li, Qihang Zhang, Yiming Luo et al. (Ant Group), 2026

2026-06-02 · arXiv · GitHub · PDF

这篇工作在讲什么

LingBot-VA 是一个基于自回归扩散的视觉-动作世界模型，专为机器人操作设计。它要解决的核心问题是：现有 VLA（Vision-Language-Action）策略只会"看到什么就做什么"，不会"先想象未来再决定怎么动"。换句话说，这些策略缺乏对物理世界因果性的建模，导致长程任务记忆差、精细操作不稳定。

LingBot-VA 的做法是将视频预测和动作推理交织在同一条自回归序列中。模型先"想象"下一步环境会变成什么样（视频预测），再从这个想象中"反推"该做什么动作（逆动力学）。两条流共享注意力，通过 KV cache 保持长程记忆，通过因果 mask 保证时间方向正确。架构基于 Mixture-of-Transformers，视频流用 Wan2.2-5B 初始化，动作流更窄更轻。

结果很强：RoboTwin 2.0 双臂仿真上平均成功率达到 92.93%（Easy）和 91.55%（Hard），比第二名高 4-5 个点；LIBERO 上平均 98.5%；真实世界六类任务（长程、精密、可变形物体）只用 50 条示教就全面超过强 baseline。值得注意的是，任务越复杂（Horizon 越长），LingBot-VA 的优势越大。Horizon=3 时比第二名高出 8-9 个百分点。

一、Motivation

想象一个场景：你让机器人做一顿早餐，先抓盘子，再抓面包，放进烤面包机，拿叉子，按下按钮，然后等着。这是一个需要十几步操作、持续一两分钟的任务。如果机器人只根据"当前看到什么"来决定"下一步做什么"，就很容易做到第五步便忘了第三步做了什么，最终陷入重复或跑偏。

现有的 VLA 策略（如 $\pi_0$、OpenVLA、$\pi_{0.5}$）本质上都是"刺激-反应"模式：输入当前观察，输出动作。它们把视觉理解、物理推理、运动控制全压缩到一个统一的监督信号里学，论文称之为"表征纠缠"（representation entanglement）。模型被迫用同一套参数同时学"这个杯子长什么样"和"手该往哪移 3 毫米"，结果两边都学不到位，泛化也差。

另一条路是用视频世界模型：先预测未来会发生什么画面，再从画面推动作。UniSim、UVA、Gen2Act 都这么试过，但各有各的问题。有的一次性生成一整段未来（开环，出错了来不及纠偏）；有的每个 chunk 独立生成（没有跨 chunk 的记忆，长程漂移）；有的在 chunk 内部用双向注意力（违反因果性，未来影响了过去的预测）。这三类问题，作者分别称为反应性缺口（reactivity gap）、长程记忆缺失（limited long-term memory）、因果性违反（causality violation）。

LingBot-VA 的切入点是：物理世界本身就是因果和自回归的，当前状态只取决于过去，不会被未来影响。因此世界模型也应该用自回归而非双向注意力来建模。这一选择同时解决了上述三个问题：自回归天然支持实时反馈（每步都能接收真实观察），KV cache 天然保持全部历史记忆，因果 mask 天然保证时间方向正确。

二、现存问题

表征纠缠：现有 VLA 把视觉理解和运动控制塞进同一个前馈映射 $a_t \sim \pi_\theta(\cdot | o_t)$，模型被迫用一套参数同时学高维视觉语义和低维电机指令，导致样本效率低、泛化差，精细操作不稳定。
开环漂移：视频世界模型（UVA、Gen2Act）一次生成整段未来视频，中间不插入真实观察，预测越长偏差越大，执行时无法纠偏。
跨 chunk 失忆：chunk-based 方法（如双向扩散分段生成）各段独立，不共享 KV cache，长程任务中前面做了什么后面看不到，时间一致性崩坏。
因果性违反：chunk 内双向注意力让未来 token 可以影响过去 token 的预测，与物理世界的因果方向矛盾，闭环执行时容易产生分布偏移。
推理延迟：视频扩散生成计算量大，逐帧去噪严重拖慢实时控制频率。机器人要么等模型算完再动（同步阻塞），要么用过时预测（naive 异步），两种方案都不理想。

四、方法详解

回到早餐场景：LingBot-VA 在每一步做两件事。先"想象"接下来几帧厨房会变成什么样（视频流），再从这个想象中"反推"手该怎么动（动作流）。想象完一步，拿到真实的相机画面，接着想象下一步。整个过程就像一个人一边做饭一边在脑子里过下一步画面。

Figure 1. LingBot-VA 全景：Internet/Robot 视频预训练 + 自回归视频-动作世界模型 + 实时部署

4.1 两阶段分解：先想象，再反推

传统 VLA 直接学 $a_t \sim \pi_\theta(\cdot | o_t)$，即看到当前画面就直接输出动作。

即"看到什么就做什么"的条件映射。

LingBot-VA 拆成两步：

$$\text{Stage 1: } o_{t+1} \sim p_\theta(\cdot | o_{\le t}), \quad \text{Stage 2: } a_t \sim g_\psi(\cdot | o_t, o_{t+1})$$

第一步预测"未来画面会变成什么样"（视觉动力学）；第二步从"当前画面"和"想象的未来画面"之间的差异反推"需要什么动作"（逆动力学）。

这种分解的好处是：Stage 1 可以利用海量互联网视频学习物理先验（杯子倒了会怎样、物体被推会往哪滑），不需要机器人数据；Stage 2 才需要配对的观察-动作数据，但只需学"画面差对应什么动作"，问题大大简化。

Figure 2. 框架总览：Language Model 提供任务指令，Video Model 自回归生成未来视频 chunk，Action Model 从中解码动作

4.2 自回归视频-动作世界建模

关键设计是将视频 token 和动作 token 交织成一条自回归序列。每帧视频 $z_t$ 后面跟着 $\tau$ 个动作 token $a_{t,1}, ..., a_{t,\tau}$（$\tau=4$，即视频每 4 帧降采样一次，动作保持原频率），然后是下一帧视频 $z_{t+1}$，以此类推。

视频状态转移条件化了动作历史：

$$z_{t+1:t+K} \sim p_\theta(\cdot | z_{\le t}, a_{<t})$$

预测未来 K 帧视频状态时，不仅看过去的视频，还看过去做了什么动作。这让模型能把"机器人的手往左推了 3cm"这个信息编码进对未来画面的预测里。

逆动力学也条件化了完整历史：

$$a_{t:t+K-1} \sim g_\psi(\cdot | \hat{z}_{t+1:t+K}, z_{\le t}, a_{<t})$$

反推动作时，不仅看当前和未来的视频，还看之前做过什么。这对"之前已经抓过盘子，现在该抓面包"这种多步推理至关重要。

4.3 MoT 架构：双流共享注意力

LingBot-VA 用 Mixture-of-Transformers（MoT）架构实现双流。视频流用 Wan2.2-5B 初始化（$d_v = 3072$，30 层），动作流同深度但更窄（$d_a = 768$，宽度为 1/4）。两条流在每一层独立计算 QKV，然后通过跨模态注意力融合：动作 token 先投影到视频维度，参与联合自注意力，再投影回来。

这种非对称设计有道理：视频信息高维复杂（需要大容量），动作信息低维简单（只有 30 维末端执行器姿态）。整个动作网络只增加约 350M 参数，总模型 5.3B。

Figure 3. 因果注意力 mask：每个 token 只能看到时间上在它之前的 token，保证自回归因果结构

4.4 训练：Teacher Forcing + 噪声增强

训练方式很自然：将交织的视频-动作序列当作一条"语言"，用 teacher forcing 做标准的 next-token 预测。因果 mask（如图 3）保证每个 token 只能看到前面的 token。

视频和动作的 loss 分别是 flow matching 速度场回归：

$$\mathcal{L}_{\text{dyn}} = \mathbb{E}\left[\|v_\theta(z_{t+1}^{(s)}, s, \tilde{z}_{\le t}, a_{<t}|c) - \dot{z}_{t+1}^{(s)}\|^2\right]$$

视频流的训练目标：预测"从噪声到干净视频"的速度场，条件是历史视频（可能加了噪声）、历史动作和语言指令。

$$\mathcal{L}_{\text{inv}} = \mathbb{E}\left[\|v_\psi(a_t^{(s)}, s, \tilde{z}_{\le t+1}, a_{<t}|c) - \dot{a}_t^{(s)}\|^2\right]$$

动作流的训练目标：预测"从噪声到干净动作"的速度场，条件是当前和下一帧视频以及历史信息。

总 loss：$\mathcal{L} = \mathcal{L}_{\text{dyn}} + \lambda \mathcal{L}_{\text{inv}}$，其中 $\lambda = 1$。

Noisy History Augmentation 是一个巧妙的训练技巧：以 50% 概率给历史视频 token 加噪声（$s_{\text{aug}} \in [0.5, 1]$）。这样推理时，动作解码不需要等视频完全去噪到 $s=1$，只去噪到 $s=0.5$ 就够了，去噪步数砍一半，速度翻倍。其直觉在于：动作推理不需要像素级完美的未来画面，粗略的语义结构就足够了。

4.5 推理：异步执行 + FDM 接地

推理时面临一个实际问题：视频扩散生成很慢，同步等待会让机器人干等。而朴素的异步方案（边执行边预测）又会导致模型依赖过时的预测，逐渐脱离现实。

Figure 4. 异步推理流水线对比：同步（A）阻塞等待 / 朴素异步（B-1）用过时预测 / FDM 接地异步（B-2）用真实反馈更新

LingBot-VA 为此设计了 FDM-grounded 异步推理：机器人执行当前 action chunk 的同时，模型并行预测下一个 chunk。关键改进在于增加了一步前向动力学模型（FDM）：拿到真实观察 $z_{t-1}$ 后，不直接用来做预测，而是先用 FDM "想象" $z_{t-1}$ 在执行当前动作 $a_t$ 后会变成什么样的 $z_t$，再基于这个接地的预测做下一步。这相当于在异步流水线中插入了一次"真实世界校准"。

4.6 关键设计细节

动作网络初始化：直接随机初始化动作流会导致训练不稳定（梯度爆炸、收敛慢），因为动作 token 的输出分布一开始与视频 token 差距过大，联合注意力机制会被干扰。解决方案是用视频流的预训练权重按维度插值来初始化动作流，再乘以缩放因子 $\alpha = \sqrt{d_v / d_a}$ 保持输出方差一致。

可变 chunk 训练：训练时随机采样 $K \in [1, 8]$，让模型学会在不同时间尺度上做预测，推理时固定 $K=4$。较大的 K 减少自回归步数（更快），较小的 K 允许更频繁地插入真实反馈（更准）。

视频稀疏化：视频帧每 $\tau=4$ 帧降采样一次（从 50 Hz 到 12.5 Hz），动作则保持 50 Hz。每帧视频后跟 4 个动作 token，因此预测 K 帧视频就对应生成 $\tau K$ 个动作。

五、实验结果

5.1 RoboTwin 2.0（双臂仿真，50 个任务）

这是一个双臂协调操作的 benchmark，难度远高于单臂场景。所有方法在相同 post-training 条件下对比（50 条/任务 clean + 500 条/任务 hard 随机场景）。

几个关键观察：

任务越长，优势越大。Horizon=1 的简单任务中，LingBot-VA 比 Motus 高 3 个点左右；到了 Horizon=3 的长程任务（三步序列操作），Easy 上高出 8.2 个百分点（93.22 vs 85.0），Hard 上高出 9.1 个百分点（93.28 vs 84.2）。这表明自回归的 KV cache 记忆机制在长程任务上确实比 chunk-based 方法具有结构性优势。

5.2 LIBERO（四个子集，40 个任务）

在 LIBERO 上取得平均 98.5% 的成功率，其中 LIBERO-Object 99.6%、LIBERO-Long 98.5%，均超过此前最优的 X-VLA（98.1%）和 OpenVLA-OFT（97.1%）。尤其在需要长程记忆的 LIBERO-Long 子集上，98.5% 的成绩比 X-VLA 的 97.6% 又进一步拉开了差距。

5.3 真实世界六类任务

仅用 50 条示教做 post-train，即在六类任务上全面超过 $\pi_{0.5}$，长程任务（Make Breakfast、Unpack Delivery）优势尤为突出。真实世界部署的核心发现如下：

(1) 长程任务证明了 KV cache 记忆有效；(2) 精密任务（Insert Tubes、Pick Screws）证明了视频-动作共享表征的精度优势；(3) 可变形物体任务（Fold Clothes、Fold Pants）证明了视频世界模型提供了丰富的物理先验。

Figure 5. 真实世界部署结果：六类任务的 Progress Score 和 Success Rate，LingBot-VA（橙色）全面超过 $\pi_{0.5}$（绿色）

5.4 消融实验

消融揭示了三个关键因果链：

(1) FDM 接地 vs Naive 异步：Naive Async 在 Horizon=3 上直接崩到 32.9%（对比 93.2），FDM-grounded 则仍有 85.6%。这表明在长程任务中，模型一旦脱离真实反馈就会迅速漂移，FDM 这一步"校准"至关重要。

(2) 预训练的价值：如果用原始 WAN 不做联合视频-动作预训练而直接 fine-tune，Easy 掉到 80.6%、Horizon=3 掉到 67.6%。这说明 LingBot-VA 的 1.4T token 预训练为模型注入了丰富的视觉物理先验。

(3) 异步 vs 同步的效率：异步推理速度是同步的 2 倍，成功率却几乎不降（FDM-grounded 的差距主要在 Horizon=3 上才显现）。

5.5 样本效率与记忆测试

Figure 8. 样本效率对比：在不同数量示教下，LingBot-VA 始终优于 $\pi_{0.5}$，低数据时优势更大

在低数据（10 条示教）情况下，LingBot-VA 在"做早餐"任务上比 $\pi_{0.5}$ 高出 15.6% progress score（真实世界）和 10.3%（仿真）。视频生成 backbone 的预训练充当了强大的物理先验正则化：模型已经"看过"大量物体运动的视频，只需少量机器人数据来学"看到这种运动差异该出什么动作"。

时序记忆测试也很有趣：Wipe Plate（擦盘子恰好 6 次）中 LingBot-VA 成功率 100%，$\pi_{0.5}$ 仅 47%；Search Box（记住已经翻过的盒子）同样是 100% 对 50%。KV cache 确实把完整历史都记住了。

六、总结

LingBot-VA 的核心贡献在于证明了自回归的视频-动作世界模型比前馈式 VLA 和 chunk-based 双向扩散都更适合机器人长程操作。通过交织序列、因果 mask 和 KV cache，它同时获得了持久记忆、因果一致性和闭环反馈三重优势。

它打开的新可能是：视频生成预训练可以作为机器人策略的"物理先验引擎"。16K 小时的视频预训练，让 50 条示教就能迁移到新任务。沿着这条路，视频质量和分辨率的提升会直接转化为策略性能的提升。

留下的问题：(1) 推理速度仍然是瓶颈，即使有部分去噪和异步执行，大视频模型的计算量依然很重；(2) 目前只用视觉，缺少力、触觉、声音等多模态感知，对需要精细力控的任务（如拧螺丝的力矩反馈）无法覆盖；(3) 5.3B 参数的部署成本对嵌入式平台不友好。

七、Insight

"想象力"和"执行力"的最优耦合方式不是让它们合并成一个东西（前馈 VLA），而是让它们交替出现在同一条因果链上，保持概念上的独立（各有各的 loss），同时共享注意力和记忆。这与人脑的运动控制非常相似：你不会用"看到杯子"直接算出"手腕旋转 3.7 度"，而是先在脑子里闪过"手握住杯子"的画面，然后身体自动调整姿态去实现那个画面。LingBot-VA 把这个直觉变成了一个可训练的架构。

八、启发

迁移：如果你在做 VLA 策略但苦于长程任务记忆差，不一定要加外部 memory module，可以试试把视频预测作为辅助任务加进序列，用 KV cache 来做记忆。即使不用完整的视频扩散，用轻量的潜在状态预测（类似 Motus 的 latent motion token）也可能通过同样的"交织自回归"获得记忆改善。明天可以试的事：在现有 VLA 的 action chunk 之间插入一个 latent next-state prediction head，看看长程任务是否改善。

反转：Noisy History Augmentation 的思路让人反思一个假设，即"推理时必须完全去噪才能做决策"。其实不必。对下游任务来说，粗糙的语义表征往往就够了。这意味着在其他扩散模型 pipeline 中也可以尝试"半去噪"策略来加速。

九、关键引用

[Section 1] "The physical world, however, is inherently causal and autoregressive: the present state depends only on the past, and we cannot observe the future before it occurs."

物理世界天生就是因果和自回归的：当前状态只取决于过去，我们不可能在未来发生之前观察到它。

—— 自回归设计的核心动机

[Section 3.2] "Unlike prior approaches that either decouple video prediction from action inference or rely on bidirectional diffusion within segments, our method unifies video and action within a single causal autoregressive framework, enabling persistent memory through KV cache and seamless integration of real-time observations."

与以往将视频预测和动作推理分开、或在段内用双向扩散的做法不同，我们把视频和动作统一到一条因果自回归框架中，通过 KV cache 实现持久记忆，同时能无缝接入实时观察。

—— 方法的核心 claim

[Section 3.3] "The key insight is that action prediction does not always require pixel-perfect reconstruction; instead, it can rely on robust semantic structures."

关键洞察是：动作预测不需要像素级完美的重建，粗略的语义结构就够了。

—— Noisy History Augmentation 和部分去噪的理论依据

[Section 4.4] "Notably, the improvement becomes more pronounced for longer-horizon tasks: at Horizon = 3, our method achieves gains of +8.2% (Easy) and +9.1% (Hard) over the second-best approach."

值得注意的是，任务越长提升越大：在 Horizon=3 上比第二名高出 8.2%（Easy）和 9.1%（Hard）。

—— 长程记忆优势的关键证据

[Section 6] "These results suggest that autoregressive video-action world modeling provides a principled foundation for learning generalizable manipulation policies, offering a compelling alternative to reactive VLA paradigms."

这些结果表明，自回归视频-动作世界建模为学习可泛化的操作策略提供了一个有原则的基础，是对"刺激-反应"式 VLA 范式的有力替代。

—— 论文的终极 claim

十、Q&A

Q1：LingBot-VA 跟传统 VLA 的本质区别是什么？不都是"观察到动作"吗？

本质区别在于中间是否有"想象"这一步。传统 VLA 是直接映射 $a_t \sim \pi(\cdot|o_t)$，看到什么就做什么，没有中间表征。LingBot-VA 拆成两步：先想象 $o_{t+1}$（这一步可以利用互联网视频学物理），再从想象推动作 $a_t \sim g(\cdot|o_t, o_{t+1})$（这一步只需少量配对数据）。关键不在于"多了一步"，而在于这种分解让两个子问题各自变简单了：视频预测不需要知道电机怎么转，逆动力学不需要理解整个场景语义。

Q2：为什么自回归比双向扩散更适合机器人？双向注意力不是能力更强吗？

能力更强不等于更适合。双向注意力允许未来 token 影响过去 token，但在物理世界中，$t+1$ 时刻的状态不可能影响 $t$ 时刻。当你在闭环执行时不断插入真实观察，双向注意力会产生逻辑矛盾：已经生成的"过去预测"和新插入的"真实观察"不一致，mask 结构却允许两者互相影响。自回归的因果 mask 天然避免了这个问题，而且 KV cache 是自回归独有的，它零成本地提供了持久历史记忆，不需要额外的 memory module。

Q3：模型的输入输出到底是什么形态？维度怎么对齐？

输入分为三部分。(1) 语言指令，用 frozen T5 编码后通过 cross-attention 注入。(2) 视频观察 $o_t$，通过 Wan2.2 的 Causal VAE 编码成 $z_t \in \mathbb{R}^{N \times C}$（$N=192$ 个空间 token，经 $4 \times 16 \times 16$ 压缩 + patchify 降维 2x）。(3) 动作 $a_t \in \mathbb{R}^{30}$（双臂各 15 维：7 EEF + 7 关节 + 1 夹爪），通过单层 MLP 投影成 $\mathbb{R}^{D}$ 的 token 嵌入。视频 token 维度 $d_v=3072$，动作 token 维度 $d_a=768$。在 MoT 的联合注意力中，动作 token 先线性投影到 3072 维参与注意力，再投影回 768 维。输出方面：视频流输出下一 chunk 的视频 latent（去噪 3 步到 $s=0.5$），动作流输出 action chunk（去噪 10 步到 $s=1$），最终通过线性投影头映射到 30 维物理动作。

Q4：训练数据是什么？16K 小时的视频从哪来？

训练数据来自六个公开数据集的聚合：Agibot（移动操作）、RoboMind（多机型）、InternData-A1（仿真迁移）、OXE 子集（OpenVLA 数据）、UMI 数据（人类演示）、RoboCOIN（双臂协调），加上内部收集的数据，总计约 16K 小时。所有数据统一为 30 维动作表征（双臂各 15 维），单臂数据补零。预训练在这个整合数据集上消耗 1.4T token，而 post-training 只需目标任务的 50 条示教（约 5 分钟数据量）。

Q5：Noisy History Augmentation 为什么能让推理加速一倍？

标准 flow matching 推理需要把噪声从 $s=0$ 去噪到 $s=1$（完全干净）。视频流用 Euler solver 走 3 步（每步 ODE 积分），动作流走 10 步。Noisy History Augmentation 在训练时以 50% 概率给历史视频加噪声（$s_{\text{aug}} \in [0.5, 1]$），由此教会动作解码器从"半噪声"视频中提取动作。推理时视频只需去噪到 $s=0.5$（3 步变成约 1.5 步的有效工作量），动作预测质量不受影响。其直觉在于：动作推理只需要知道"物体往左移了、手臂张开了"这类语义信息，不需要知道"物体的纹理细节恢复到什么程度"。

Q6：FDM 接地具体做了什么？为什么 Naive Async 在 Horizon=3 会崩到 32.9%？

Naive Async 的问题在于：模型在预测 $t+1$ 步时，用的是自己之前预测的视频 $\hat{z}_t$（而非真实的 $z_t$），因为真实观察还没拿到（机器人还在执行上一个 chunk）。一两步还行，但 Horizon=3 意味着这种"自己预测喂自己"会叠加三轮，累积误差让模型完全脱离现实。FDM 接地的做法是：拿到真实的 $z_{t-1}$ 后，用世界模型自身做一步前向预测，即"如果在 $z_{t-1}$ 上执行当前动作 $a_t$，下一帧会是什么？"，从而得到一个"接地的" $z_t$。这个 $z_t$ 虽然也是预测，但锚定在了最新真实观察上，误差不会跨步累积。

Q7：5.3B 参数的模型怎么做到实时控制？推理延迟多少？

论文没有报告具体的 FPS 数字，但架构上做了三件事来保证实时性。(1) 异步流水线：机器人执行当前 chunk 时模型在算下一个 chunk，计算时间被流水线覆盖掉了。(2) 部分去噪：视频只去噪到 $s=0.5$，步数减半。(3) KV cache：每步只需计算新 token 的注意力，历史 token 的 KV 已经缓存。动作流更小（$d_a=768$ vs $d_v=3072$），计算量只有视频流的约 $1/16$。实际上 chunk size $K=4$，每个 chunk 对应 $4 \times 4 = 16$ 个动作（$\tau=4$），因此只要 chunk 预测时间短于 16 个动作的执行时间（$16/50\text{Hz} = 320\text{ms}$），就不会产生延迟。

Q8：动作网络初始化的 α = √(d_v / d_a) 缩放因子是怎么推导的？

这是一个方差保持（variance preserving）的标准技巧。视频网络的权重在 $d_v=3072$ 维上训练，输出方差大致正比于维度的某个函数。当把这些权重"截断"到 $d_a=768$ 维时（按维度插值），输出方差会发生变化。乘以 $\alpha = \sqrt{d_v/d_a} = \sqrt{3072/768} = 2$ 是为了让初始化后动作流的输出方差与视频流匹配，使两条流在联合注意力中不会因数值尺度不同而互相干扰。这与 He initialization 的思路一脉相承。