WAM 论文深度横向对比
10 篇 World Action Model 论文的多维度分析
〇、研究脉络:从联合去噪到多流加速
WAM 的故事可以分成三个阶段来看。
第一阶段:概念验证(2024.11)
PAD 是起点。它提出了一个简单但有力的假设:既然图像生成和动作生成在技术上都是扩散去噪,那就把它们塞进同一个 DiT 里联合处理。结果验证了两件事:(1)图像预测确实能大幅提升策略性能(去掉后暴跌 28.9 个百分点);(2)联合去噪比两阶段方案更优。PAD 在自己的 Franka Panda 平台上做到了 72% 成功率,但局限也很明显:所有模态共享一个扩散时间步,推理时没法灵活切换模式。后来 UWM 的实验发现,PAD 的 channel-wise 拼接条件注入在更复杂的真实场景(DROID 数据集)下效果很差,多数任务接近 0%。
第二阶段:机制创新(2025.04 - 2025.12)
UWM(2025.04)做了 PAD 之后最关键的一步改进:给每个模态一个独立的扩散时间步。这个看似微小的改动带来了 12% 的性能提升,更重要的是让同一个 checkpoint 能在策略、世界模型、逆动力学、正向动力学四种模式间自由切换。UWM 还用 AdaLN 替换了 PAD 的 channel 拼接,大幅改善了真实世界的表现。"缺失模态 = 时间步设为 T"这个洞察直接影响了后来 X-WAM 的 ANS 调度和 Motus 的 UniDiffuser 调度,不过其他几条技术路线(自回归、级联、MoT 多流)各自走了不同的方向。
Motus(2025.12)走了另一条路:不直接预测机器人动作,而是用光流作为中间表示。先训练一个逆动力学模型(IDM)把光流映射回动作,再用 MoT 多流架构把视频流、光流流和动作流拼在一起。光流可以从任何视频中无监督提取,所以这个思路降低了对动作标注数据的依赖(但 IDM 本身仍然需要一些标注数据来训练)。
第三阶段:规模化与工程优化(2026.01 - 2026.04)
2026 年初开始,WAM 研究出现了明显的分化。
规模派以 DreamZero(2026.02)为代表,直接把 14B 参数的视频扩散模型(Wan2.1)改造成机器人策略。它选了自回归架构而非双向扩散,用 Flash 调度把推理延迟从 5.7 秒压到 150ms,并证明了"数据多样性 > 数据重复性"。未见任务 39.5% 的成绩让所有 VLA baseline 归零。
效率派则聚焦推理速度。Fast-WAM(2026.03)发现训练时的视频预测在推理时可以完全跳过,190ms 延迟做到 5Hz。GigaWorld(2026.03)用因果掩码从理论上证明了 video-free 推理的合理性,360ms/3Hz。DiT4DiT(2026.03)走级联路线,一个 DiT 生成视频、另一个从视频提取动作,167ms/6Hz,完全不碰预训练模型的权重。
功能派侧重扩展 WAM 的能力边界。Cosmos Policy(2026.01)把 WAM 当成 model-based planning 的模拟器,用 value function 对多个候选动作打分,50 条示范就能达到不错的效果。LingBot-VA(2026.01)用因果 KV cache 做自回归 VLA,动作输出频率到 50Hz。X-WAM(2026.04)把 2D 视频扩散扩展到 4D(加深度维度),用 ANS 调度器解耦视频和动作的去噪节奏,还加了 3D 重建的辅助监督。
两条分化路线
回头看这 10 篇工作,视频预测的角色是理解 WAM 演化的关键线索,但并非一条单一主线,而是分化成了两条路线。
路线 A:"训练时想象,推理时跳过"。PAD 首先证明图像预测是极其高效的训练正则化;UWM 通过独立时间步让推理时可以只输出动作;Fast-WAM 和 GigaWorld 则把"推理时不生成视频"做成了显式的设计目标,速度快了好几倍。在这条路线上,视频预测从"必须做"逐步退化成了"训练辅助"。
路线 B:"视频就是物理先验,推理时保留"。DreamZero 走的是另一个方向:它加倍押注视频生成,把 14B 视频扩散模型当核心引擎,推理时仍然生成视频。它的 Flash 调度通过在训练时把视频侧时间步偏向高噪声(Beta(7,1) 分布,均值 0.875,意味着视频几乎全是噪声),让模型大量练习"从模糊视频中提取干净动作",这样推理时 1 步去噪就够了,延迟从 350ms 降到 150ms。但视频 token 仍然过网络、仍然参与 attention,并没有跳过视频生成这个步骤。在这条路线上,视频预测不是正则化手段,而是模型理解物理世界的核心机制。
两条路线各有优势:路线 A 推理快(190ms/5Hz),适合实时控制;路线 B 泛化强(未见任务 39.5%),适合需要零样本能力的场景。这个分化本身就是 WAM 领域在一年半里最有意思的发展。
一、架构范式
10 篇 WAM 论文围绕"怎么把视频和动作塞进一个模型",走出了五条截然不同的路线。搞清楚这些路线的分歧,是后面所有对比的基础。
1.1 统一流 (Unified Flow)
代表作:PAD、UWM。核心思路是把视频 token 和动作 token 拼到同一个 DiT/Transformer 输入序列里,共享一套注意力机制联合去噪。优点是设计极简,视频和动作通过 attention 自由交换信息。缺点是两种模态的噪声水平会耦合(PAD 共享时间步),或者需要额外机制解耦(UWM 的独立时间步)。PAD 最早证明了这条路可行,UWM 在灵活性上做了关键升级。
1.2 自回归 (Autoregressive)
代表作:DreamZero、LingBot-VA。这类方法把时间轴切成 chunk,逐 chunk 交替生成视频帧和动作。LingBot-VA 更纯粹:基于因果掩码做自回归扩散,当前 chunk 只能看到过去的 chunk,形成严格的因果链。DreamZero 本质也是自回归(每次消费上一段末帧来生成下一段),只是单个 chunk 内部并行去噪。这类范式天然适合长序列任务,记忆可以通过 KV cache 跨 chunk 累积。代价是逐 chunk 生成引入顺序依赖,难以完全并行化。
1.3 级联 (Cascade)
代表作:DiT4DiT。一个 DiT(Stage-1)负责视频去噪,另一个 DiT(Stage-2)从 Stage-1 的中间层特征里提取动作,两个模型各管一头,不共享参数。好处是 Stage-1 可以直接用现成的预训练视频模型(Cosmos-Predict2.5),完全不改;Stage-2 只学"从视频表征到动作"这一件事,训练效率高。推理时 Stage-1 甚至只跑一步前向(不做完整去噪),就能给 Stage-2 提供足够好的特征。这篇论文的核心论点是"级联优于联合",强行让一个网络同时优化视频和动作会互相干扰。
1.4 MoT 多流 (Mixture of Tokens)
代表作:Motus、Fast-WAM、GigaWorld-Policy。在 Transformer 内部,不同模态各有独立的专家通道(expert stream):视频 token 走视频专家,动作 token 走动作专家,两者通过交叉注意力层或共享注意力层交换信息。好处是各专家可以独立优化,推理时还能把不需要的流直接砍掉(Fast-WAM 和 GigaWorld 都支持推理时跳过整个视频分支)。Motus 用光流作为"潜在动作表示"桥接两个流,是这类方法中最独特的设计。GigaWorld 则进一步引入因果掩码,确保动作流不依赖视频流的输出,推理时丢弃视频 token 在数学上完全等价。
1.5 其他
X-WAM 在统一流基础上做了两个扩展:一是加入深度分支(Lightweight Depth Adaptation),把模型从 2D 提升到 4D;二是引入 ANS(异步噪声采样),动作和视频按不同的去噪步数走。定位介于统一流和多流之间。Cosmos Policy 走了一条"零架构修改"路线:把动作和状态编码成与视频帧同形状的 latent,直接塞进视频扩散序列。视频模型完全不知道自己在处理动作,以为只是在生成更多帧。好处是预训练权重零损伤,缺点是动作表达受限于视频 latent 的维度。
二、视频-动作耦合方式
"视频和动作在去噪过程中到底是什么关系?"这是 WAM 设计里最核心的分歧点。耦合方式不同,模型的灵活性、训练效率和推理速度都会跟着变。
| 耦合方式 | 代表方法 | 工作机制 | 优点 | 缺点 |
|---|---|---|---|---|
| 共享时间步 | PAD | 视频和动作用同一个扩散时间步 t,每步去噪时噪声水平完全相同 | 实现最简单;梯度信号在两种模态间自由流动 | 推理时没法只输出动作而不预测视频;两种模态去噪难度不同,却被迫用相同步数 |
| 独立时间步 | UWM | 视频和动作各有独立的时间步 t_v 和 t_a,推理时可以分别设定 | 一个模型四种用法(策略/世界模型/正向/逆向动力学);缺失模态设 t=T 即可 | 训练时要联合采样两个时间步;收敛可能更慢 |
| 自回归交替 | DreamZero LingBot-VA |
按时间顺序逐 chunk 生成:先预测未来帧,再基于预测帧推断动作(或交替进行) | 天然因果结构,支持长程任务;可用 KV cache 加速 | 顺序依赖限制并行;误差有可能跨 chunk 累积 |
| 分离流 (MoT) | Motus Fast-WAM GigaWorld |
视频和动作各走独立专家通道,通过共享 attention 或交叉 attention 交互 | 推理时可裁剪视频流 (video-free);各流可独立优化 | 设计更复杂;交互层的位置和数量需要仔细调 |
| ANS 异步 | X-WAM | 动作只用 5 步去噪出结果(快速响应),视频继续走 25 步保证质量 | 动作快速就绪,不拖慢控制循环 | 训练时要做异步噪声分布对齐;视频侧延迟仍然高 |
| Flash 调度 | DreamZero-Flash | Beta 噪声调度器训练时把视频偏向高噪声,推理时去噪步从 4 降到 1(16→4 由 DiT Caching 完成) | 延迟从 5.7s 压到 150ms(38x);动作质量几乎无损 | 只对动作侧有效;视频生成质量会明显下降 |
| Latent Frame | Cosmos Policy | 动作/状态编码成与视频帧同形状的 latent,视频模型完全不知道在处理动作 | 预训练权重零损伤;不改任何架构 | 动作表达受限于视频 latent 维度;解码需要额外映射 |
整体来看,耦合方式从"强绑定"一路走向"灵活解耦"。PAD 的共享时间步绑得最紧,UWM 的独立时间步开始松绑,MoT 多流更进一步让两个模态各有独立计算路径。最新的趋势是"训练时紧耦合、推理时完全解耦":Fast-WAM 和 GigaWorld 训练时视频和动作紧密互动(视频为动作提供表征监督),推理时直接把视频扔掉,只跑动作。
三、Backbone 与预训练策略
WAM 有个核心问题:从头训练一个理解物理世界的模型,还是站在预训练视频模型的肩膀上?10 篇论文给出了从"完全从头"到"几乎不改"的完整频谱。
| 方法 | Backbone | 参数量 | 预训练来源 | 微调策略 |
|---|---|---|---|---|
| PAD | DiT (自建) | 661M | ImageNet 图像生成 | 全参数训练,4x A100 3天 |
| UWM | DiT + SDXL VAE | ~300M | 仅用 SDXL VAE 编码图像,DiT 从头训练 | 全参数训练,4x A100 24h |
| Motus | Wan2.2 5B + Qwen3-VL 2B | ~8B | 互联网视频 + 视觉语言预训练 | 两阶段: 8K GPU-h + 10K GPU-h |
| Cosmos Policy | Cosmos-Predict2-2B | 2B | NVIDIA Cosmos 视频预训练 | 全参数微调,64x H100 48h |
| LingBot-VA | Wan2.2-5B | 5.3B | Wan2.2 视频生成预训练 | 1.4T tokens 预训练 |
| DreamZero | Wan2.1-I2V-14B | 14B | Wan2.1 Image-to-Video 预训练 | 100K steps, bs128, H100/GB200 |
| DiT4DiT | Cosmos-Predict2.5-2B | ~2.2B | NVIDIA Cosmos 2.5 视频预训练 | Stage-1 冻结或轻调, Stage-2 从头训练 |
| Fast-WAM | Wan2.2-5B | ~6B | Wan2.2 视频生成预训练 | MoT 额外动作分支需训练 |
| GigaWorld | Wan2.2-5B | 5B | Wan2.2 视频生成预训练 | 6000 GPU-h, bs256 |
| X-WAM | Wan2.2-5B | ~5B | Wan2.2 视频生成预训练 | 256x H20 40K steps; 微调 32x H20 |
几个值得注意的点:
- Wan 系列的统治地位:10 篇论文中有 6 篇用了 Wan2.1 或 Wan2.2 做 backbone(DreamZero、LingBot-VA、Fast-WAM、GigaWorld、X-WAM、Motus 的视频分支)。这不是巧合,Wan 是目前开源视频生成模型里质量和规模最好的选择。
- 参数量两极分化:UWM 只有 300M 就在 DROID 上超过 Diffusion Policy 20 个百分点;DreamZero 用 14B 才换来零样本泛化。这说明:想在已见任务上做好,小模型就够;想在从没见过的任务上也能做,大模型的物理先验不可替代。
- "零修改" vs "重度改造":Cosmos Policy 完全不改视频模型架构,DiT4DiT 只动 Stage-2;Motus 则需要同时训练视频生成器和 VLM 两个巨型模块。改得越少,预训练先验保留得越好,但灵活性也越低。
四、数据利用方式
WAM 的一大卖点是"不只靠标注数据"。但各方法利用额外数据的方式差别很大。
| 方法 | 标注数据量 | 无标注视频 | 人类视频 | 跨平台数据 | 数据效率亮点 |
|---|---|---|---|---|---|
| PAD | BridgeData-v2 (60K 条) | 可混入(attention mask 屏蔽动作) | - | - | 50 条/任务足够 |
| UWM | DROID 2000 条 | 2000 条无标注视频协同训练 | - | - | 协同训练 OOD +4~12 pts |
| Motus | 多源 (六层金字塔) | 互联网视频 (最底层) | 含人类操作视频 | 跨平台数据在金字塔中层 | 光流作为通用动作表示消除标注需求 |
| Cosmos Policy | 最少 50 条示范 (RoboCasa) | 预训练阶段含 | - | - | 极高数据效率,50 条可微调 |
| LingBot-VA | 16K 小时 | 含在预训练 | - | - | 10 条示范微调 +15.6% |
| DreamZero | ~500h (AgiBot, 42 技能) | 视频迁移 10-20 min | 人类视频 human-to-robot 迁移 | 30min play data 适配新平台 | 数据多样性 > 数据重复性 |
| DiT4DiT | 未详述 | 预训练含 | - | - | 10x 样本效率提升 |
| Fast-WAM | 未详述 | 视频共训练(必须,去掉视频则崩到 10%) | - | - | 视频是不可或缺的训练信号 |
| GigaWorld | ~10K 小时 | 含 egocentric 人类视频 | 含人类视频 | - | stride-12 未来帧采样足够 |
| X-WAM | 5800+ 小时 | 含在数据混合 | - | 跨具身体数据混合 | 大规模数据 + 深度监督互补 |
几条规律:
五、推理效率
对闭环机器人控制来说,推理延迟直接决定能不能用。操作型任务一般要至少 5Hz(200ms 以下),移动型任务可以容忍 1-2Hz。
| 方法 | 推理延迟 | 控制频率 | 推理时视频 | 主要加速手段 |
|---|---|---|---|---|
| PAD | 未报告 (75-step DDIM) | 未报告 | 必须生成 | - |
| UWM | 未报告 | 10Hz | 策略模式可跳过 | 独立时间步: t_v=T 退化为纯策略 |
| DreamZero | ~150ms (Flash) | 7Hz | 生成但异步执行 | CFG 并行 + DiT Caching + NVFP4 量化 + Flash 调度 = 38x |
| DiT4DiT | ~167ms (A100) | 6Hz | 仅 1 步前向提取特征 | Stage-1 单步特征提取 (非迭代去噪) |
| Fast-WAM | 190ms | ~5Hz | 完全跳过 | 推理时完全裁剪视频分支 |
| GigaWorld | 360ms (A100) | ~3Hz | 完全跳过 (因果掩码保证) | 因果 mask 让动作不依赖视频 token |
| X-WAM | 1033ms (RTX 3090) | ~1Hz | ANS 异步 (动作 5 步, 视频 25 步) | 动作侧 5 步去噪快速响应 |
| Cosmos Policy | 1413ms | ~0.7Hz | 策略模式否, planning 模式是 | 并行解码 / N-GPU planning |
| LingBot-VA | 未报告 (异步隐藏) | 50Hz 动作 / 12.5Hz 视频 | 生成 (自回归) | KV cache + Noisy History Aug. (半步去噪) |
| Motus | 3231ms | ~0.3Hz | 必须生成 | - |
快速方法的加速策略大致分三类:
- 推理时跳过视频:Fast-WAM 和 GigaWorld 推理时完全不生成视频,直接省掉最耗时的部分。前提是训练时的视频监督已经把物理理解"蒸馏"进了动作分支的权重。
- 减少去噪步数:DreamZero-Flash 用 Beta 噪声调度把 16 步压到 1 步;DiT4DiT 的 Stage-1 只做 1 步前向(不做迭代去噪)就提取特征;X-WAM 的 ANS 让动作侧只走 5 步。
- 系统级优化:DreamZero 组合了 CFG 并行(正负引导信号打包成一个 batch)、DiT Caching(复用相邻步的 velocity 预测,16 步→4 步)、NVFP4 量化,再加 Flash 调度(4 步→1 步),把 14B 模型延迟从 5.7 秒压到 150ms,达到 38x 加速。
六、评测基准与成绩
不同论文选的评测基准并不完全重叠。即使在同一个 benchmark 上,评估协议(示范数量、种子数、OOD 设置等)也可能不同,数字仅供参考趋势。
6.1 LIBERO (4-suite 平均成功率)
LIBERO 是桌面操作最常用的仿真基准之一,包含四个子套件。下面列出报告了该基准的方法。
6.2 RoboTwin 2.0 (50+ tasks)
RoboTwin 是双臂操作的评估平台,难度较高。格式为 L1 / L2 (两个难度级别的成功率)。
| 方法 | RoboTwin L1 | RoboTwin L2 |
|---|---|---|
| Motus | 88.7% | 87.0% |
| GigaWorld | 87% | 85% |
| X-WAM | 89.8% | 90.7% |
| Fast-WAM | 91.8% (均值) | |
| LingBot-VA | 92.9% | 91.6% |
6.3 RoboCasa (24 tasks)
| 方法 | 成功率 |
|---|---|
| DiT4DiT | 50.8% (GR1 split) |
| UWM | 60.8% |
| Cosmos Policy | 67.1% |
| X-WAM | 79.2% |
6.4 真实世界实验
| 方法 | 平台 | 成绩 | 亮点 |
|---|---|---|---|
| PAD | Metaworld / Real | Metaworld 72.5%, Real 72% (加深度 78%) | 加深度模态后提升至 78%;面对未见物体成功率提升 28% |
| UWM | UR5e | OOD 成功率 0.72~0.84 | 协同训练后 OOD 提升显著 |
| DreamZero | AgiBot G1 | 已见 62.2%, 未见 39.5% | 零样本: 未见任务 39.5% (所有 VLA 接近 0%) |
| Cosmos Policy | ALOHA 双臂 | 93.6% 平均分 | Best-of-N planning 困难任务 +12.5pts |
| Fast-WAM | 桌面操作 | ~85% (towel folding) | Video-free 推理 190ms, 5Hz 闭环 |
| GigaWorld | 桌面操作 | 83% | Video-free 推理, 360ms, 3Hz |
| LingBot-VA | 6 tasks | SOTA | 50Hz 动作输出, 12.5Hz 视频 |
| X-WAM | 双臂耳机包装 | SOTA | 4D 重建 + 跨具身迁移 |
| DiT4DiT | Unitree G1 | SOTA | 级联推理 167ms, 人形机器人部署 |
七、核心 Insight 对比
把 10 篇论文各自的"最重要发现"放到一起看,能发现一些跨论文的规律。
7.1 各论文核心 Insight
去掉图像预测后性能暴跌 28.9 个百分点,但推理时图像预测的结果根本没人用。视频预测的价值在于逼模型学物理规律,而不是推理时提供额外信息。PAD 是第一个清晰证明这一点的工作。
极其简洁的洞见:在扩散模型里,"不知道"和"纯噪声"是等价的。某种模态缺失时,把它的噪声水平设到最大(t=T),模型自然忽略它。不需要 mask,不需要改架构,噪声本身就是最自然的缺失值编码。
500 小时涵盖 42 种技能、22 个环境的异构数据,效果超过了数千小时同任务重复示范训出的 VLA。这颠覆了"数据越多越好"的直觉,关键在覆盖面而非数量。同时 DreamZero 也证明了预训练视频模型的物理先验可以零样本迁移到未见任务(未见任务 39.5%,所有 VLA 接近 0%)。
不只是用世界模型想象未来,还训了一个价值函数给未来打分。采样 8 个候选动作,用世界模型 rollout,再用价值函数选最优,困难任务提升 12.5 个百分点。更有意思的是"做得越多想得越准"的正循环:用策略自己的部署经验去精调世界模型。
加入深度预测分支后,不仅 3D 重建变好了,动作执行的成功率也跟着涨。深度信息作为额外的空间结构监督,能帮模型建立更准确的物理理解。X-WAM 还证明了跨具身体的深度监督可行:不同机器人、不同相机配置可以共享同一个深度分支。
MoT 架构加上因果注意力掩码,确保动作 token 在计算上不依赖视频 token 的输出。推理时删掉视频 token 在数学上精确等价,不是近似。比起 Fast-WAM "经验上发现删掉也行"的做法,理论保证更强。
口号简洁到位。训练时视频生成为动作分支提供丰富的物理表征监督,推理时完全不跑视频分支,延迟从秒级降到 190ms。消融实验证明这不是"可选优化",而是"必要设计":去掉训练时的视频,真实世界成功率从 ~85% 崩到 10%。
如果手头有一个很好的预训练视频模型,强行让它同时学动作可能破坏已有表征。更好的做法是让它只管视频,再用另一个轻量网络从中间层特征里"蒸馏"出动作。DiT4DiT 还发现 Stage-1 只跑一步前向(不做完整去噪)就够了,去噪早期的特征已经包含足够的控制信息。
自回归世界模型的老毛病是误差累积,一步错就步步错。LingBot-VA 训练时给历史帧加噪声,逼模型学会在"不完美的过去"上继续工作,相当于 scheduled sampling 的扩散版本。效果是连续 rollout 很多步,生成质量依然稳定。
光流描述的是"像素级的运动",同时编码了"世界怎么变"(视频信息)和"该怎么动"(动作信息)。Motus 用光流作为"潜在动作表示",让视频生成器和动作解码器通过光流空间交流,避免两种差异巨大的模态直接在同一个特征空间里竞争。
7.2 跨论文宏观趋势
PAD(2024)最先发现这个现象,Fast-WAM 和 GigaWorld(2026)把它做到了极致。从 PAD 的"推理时可以不看"到 Fast-WAM/GigaWorld 的"推理时压根不跑",WAM 领域正在快速收敛到"训练时用视频、推理时跳过视频"的范式。
路线 A(DreamZero 14B、Motus 8B、LingBot-VA 5.3B)追求零样本泛化和跨具身迁移,代价是推理延迟高。路线 B(Fast-WAM、GigaWorld、DiT4DiT)保留视频训练信号但推理时跳过,追求实时控制(150-360ms)。两条路线暂时还没合流,但 DreamZero-Flash 的 38x 加速说明大模型实时化是有可能的。
2024 年的 PAD 还在用 ImageNet DiT 从头训练,到了 2026 年几乎所有新工作都站在 Wan2.x 或 Cosmos 的肩膀上。视频预训练模型提供的物理先验太强了,从头训练已经不划算。这也意味着 WAM 的发展速度很大程度上取决于基础视频模型的进步。
X-WAM 是第一个系统性地把深度信息引入 WAM 的工作,并且证明了深度监督同时提升 3D 重建和策略性能。2D WAM 在 LIBERO 上已经逼近 99% 的天花板,向 4D 扩展是自然的下一步。
八、设计选择决策树
如果你是研究者,准备做 WAM,该怎么选路线?下面是一棵基于 10 篇论文经验总结的决策树。
简短总结一下。WAM 领域不到两年(从 PAD 2024.11 到 X-WAM 2026.04),就从"概念验证"走到了"多条成熟路线并行"。核心共识是:视频预测作为训练时的物理监督信号极其有价值,但推理时是否需要生成视频则因场景而异。追求极致实时性的部署场景,Fast-WAM / GigaWorld / DiT4DiT 的"训练时想象、推理时跳过"路线最实用。追求零样本泛化和跨平台迁移的研究场景,DreamZero 的大模型路线最有前景。X-WAM 向 4D 的扩展、Cosmos Policy 的 planning 能力、Motus 的光流中介,则各自在不同方向上开辟了新的可能性。