2026: VLA 将死，WAM 当立 ? ? ? ? ?【视频预训练＞VLM预训练：来自视频的物理动态先验，对机器人控制比语义先验更关键】

news2026/5/3 5:31:33

2026年以来具身智能圈子里最热的争论已经不是哪家VLA刷了多少分而是一个更根本的问题我们给机器人选的这条路 , 它真的对吗 ?主流 VLA(Vision-Language-Action) 模型的套路大家都熟了—拿一个在海量图文数据上预训练好的VLM当底座再用机器人数据做post-training , 让模型学会输出动作。从 RT-2 到 πo 再到 πo.5, 这套范式确实 work, 也确实能做出语义泛化——你给它看没见过的物体只要VLM的语义先验够强模型多半能认出来然后执行 ”抓起来放到那儿之类的操作。但问题出在哪呢 ?VLA 能认出 Taylor Swift 的脸却解不开一根鞋带。这不是段子这是NVIDIA团队一个很尖锐的观察。VLM预训练教会了模型什么是什么,却没教会它世界怎么动。你要机器人叠一件没见过款式的衣服、用没练过的工具完成操作光靠语义理解远远不够——它缺的是对物理世界因果关系的建模。mimic-video 的作者把问题说到了根上视觉-语言预训练只能捕获语义先验而对物理因果性完全失明。视频预训练才是正确的起点。NVIDIA 的 Jim Fan 更是把World Action Model称为机器人领域的GPT-2时刻,一个全新的预训练范式模型预测的不再是下一个词而是下一个物理状态。他还给了一个很有意思的生物学论证猿类几乎没有语言能力却能换刹车片因为它们大脑皮层中视觉和物理理解占据了绝对主导。01.先理解核心矛盾VLA到底缺了什么?在展开三条路线之前值得先厘清一个概念框架。一个理想的自主具身智能体 (AutonomousEmbodied Agent)本质上需要两个互补的能力P r ( a ∣ l , o ) Pr(a|l,o)Pr(a∣l,o)— 给定语言指令和观测输出动作。这是“策略”。P r ( o ∣ l , a ) Pr(o|l,a)Pr(o∣l,a)— 给定语言和动作预测世界会变成什么样。这是“世界模型”。传统VLA只做第一个—输入图像和文本输出动作 token。世界模型只做第二个输入当前状态和动作预——测未来观测。WAM要做的事情是把两者融合起来让模型既能想象世界的未来演化又能从这个想象中提取出应该执行的动作。下面三列对比图讲得很清楚Action Model理解图像但不能生成图像World Model能生成图像但不能生成动作Action World Model 两样都会。因为视频预训练和VLM预训练带来的东西本质上不一样。VLM的预训练数据是图文对——静态的、离散的、语义层面的。而视频数据天然包含了时间连续性、物体运动轨迹、接触变形、因果关系——这些在静态图片里根本看不到的信息。一个在海量视频上训练过的模型它见过水怎么流、布怎么折、物体怎么滑落。这些物理先验是 VLM 永远学不到的。DreamZero 的 NVIDIA 团队提供了一个很刺痛的实证预训练 VLA 不管收到什么指令都倾向于执行 pick- and- place 动作。它们不是真正理解了任务语义而是过拟合了训练数据中最常见的行为模式。在多样化的评估任务上最好的预训练 VLA只达到27.4 % 2 7 . 4 \%27.4%的任务进度而 DreamZero 达到了62.2% ——超过两倍。理解了这一点三条路线的分歧就自然浮现了——它们都认同视频预训练视觉 - 语言预训练 , 但在怎么用视频这个问题上走了完全不同的路。02. 路线一两阶段解耦派代表工作 UniPi→VPP→Vidar→mimic-video→LAPA2.1 开山之作UniPi(NeurIPS 2023)它提出了一个极其重要的方向用视频作为通用接口—不同机器人、不同环境共享同一个像素空间天然支持跨本体迁移。2.2 加速之作VPP(ICML2025 Spotlight)VPP 首先确认了一个后来被mimic-video 反复强调的关键洞见策略性能与视频预测质量直接正相关。再到 25 年mimic-video 提出了三个关键创新第一 Partial Denoising;第二独立的 flow schedule;第三也是最有意义的发现V ideo QualityPolicy Quality 。;还有一个违反直觉的发现值得深思解耦训练居然比端到端训练效果更好。这条路线上还有两个值得关注的工作一、Vidar 聚焦双臂操作二、LAPA(ICLR 2025) 走了一条更独特的路03. 路线二端到端联合生成派代表工作PAD→VideoVLA→WorldVLA→Cosmos Policy→DreamZeroPAD(NeurIPS 2024) 建立了基础洞察图像预测和动作生成共享相同的去噪动力学VideoVLA(NeurIPS 2025) 把这个思路扩展到CogVideoX-5B;达摩院的WorldVLA探索了Chameleon 架构下的理解生成大统一范式提出了action attention masking 机制Cosmos Policy是我近期最喜欢的工作它的核心洞察简洁到优美它基于 Cosmos-Predict2B,对预训练backbone 做了零架构修改—— 这在所有WAM工作中是最minimalist 的方案DreamZero 是目前的集大成者把整条路线上所有关键问题都给出了一份答案。自回归架构保持原生帧率解决了双向扩散的video-action 对齐问题多样化非重复数据优于重复示教( 33 % ( 3 3 \%(33%$ 5 0 % )$ ,颠覆了传统VLA 的数据收集范式3 0 分钟 play data 迁移到全新机器人保持零样本泛化14 B 模型通过六层优化栈跑到 7 Hz (2×GB200)架构选择为什么选自回归而非双向 ? 这是一个被很多 WAM工作忽略的问题。数据利用不需要重复示教泛化能力超过VLA两倍跨本体迁移30分钟适配新机器人实时性14B模型跑到7Hz04. 路线三统一多功能模型派——一个模型干四件事代表工作UVA→UWM→UWM→LingBot−VA→MotusUWM: 独立时间步的优雅设计训练时无需任何特殊处理一个统一的loss 函数搞定一切。UVA: 轻量级的务实方案。关键效率洞察推过速度和纯动作 Diffusion Policy 相当。LingBot-VA : 逐 token 的边想边做。LingBot- VA 与 UVA/UWM 的关键区别在于时间粒度。UVA 和 UWM 都是 chunk-level 的先— 想一段未来视频再生成一段动作。LingBot -VA 是 token-level 的自回归—每个时间步先预测下一帧视频latent, 再基于这个预测解码出动作。更接近边想边做边纠错的直觉。Motus: 最惊艳的实验结论Motus 来自朱军老师团队它用光流(opticalflow) 作为跨本体的通用运动表征。DPFlow 从任意视频中提取像素级位移然后用卷积 VAE 压缩为本体无关的 latent actions。这意味着任何视频都能用—YouTube 烹饪视频、第一人称人类操作、合成数据、多种机器人数据不需要动作标注。三专家 MoT 架构融合了 Qwen3-VL-2B ( 语义理解)、Wan2.2-5B ( 视频生成)和轻量动作专家通过共享 multi-head self-attention 交互配合一个从web 数据到机器人数据的六层数据金字塔做三阶段渐进训练。在 RoboTwin 2.0 的 50 任务多任务训练中随着任务数量增加 Motus 的平均成功率持续上升而πo.5 则持续下降。最终 Motus 达到 87.0% (比 πo.5 高出 45 个百分点)。在真实机器人上AC-One 平台上 Motus 做咖啡研磨达到92%——πo.5只有8%。这个结果非常惊艳Motus学到的是共享的world knowledge—任务越多共享知识越丰富每个任务都受益。而VLA更像是在每个任务的 action 模式上独立拟合任务一多就互相干扰。这让人想到一个类比GPT-3之前NLP也是多任务不如单任务,直到模型和数据规模跨过某个阈值multi-task 才开始mutual beneficial。WAM 路线是不是也走到了这个拐点 ?05. 一些问题与共识(1) Video QualityPolicyQuality, 这个等式的边界在哪?mimic-video 证明了视频预测质量和策略性能强相关。但这是不是意味着视频生成的天花板就是机器人操控的天花板?如果是那VAE的信息瓶颈— 特别是插 USB线、旋螺丝这类需要亚毫米精度的任务会不会成为不可逾越的限制目前没有人系统性地回答过。(2)解耦vs 端到端到底是哲学问题还是工程问题?mimic-cideo 说解耦更好DereamZero说端到端更好。我倾向于认为这是 scale-dependent 的数据少时别动视频backbone, 数据够了再端到端。但这只是直觉不是证据。而且这两个结论来自完全不同的实验设置—2B vs 14 B, 不同数据集不同评估协议。严格来说它们不可比。(3)推理速度是不是死穴?DreamZero 的 7Hz 方案工程上已经非常 impressive, 但需要 2 块 GB200。对比之下 VLA 在消费级 GPU 上就能跑 20 Hz 。对灵巧操作、接物、避障这些高动态场景7Hz可能仍然不够。不过UVA在推理时跳过视频生成头速度和纯 Diffusion Policy 相当mimic-video 的partial denoising 大幅降低了计算开销 DreamZero-Flash 的1步去噪仅损失 9% 性能。提取视频先验但不付全部计算代价——这些优雅的中间方案可能是工程落地的关键。(4) VAE 的信息瓶颈目前大多数工作在latent space操作这主要是计算效率考量。但一个潜在风险是 VAE下采样的信息损失——特别是插USB线、旋开小螺丝这类需要极高空间精度的任务。目前还没有工作系统性地回答这个问题但直觉上随着任务精度要求提升这个天花板迟早会出现。(5)共识视频预训练VLM预训练三条路线的研究者在这一点上高度一致。来自视频的物理动态先验对机器人控制比语义先验更关键。这不是说语义理解不重要当然— 重要机器人需要理解把杯子放到杯垫上是什么意思。但语义理解已经被解决得相当好了真正的瓶颈在物理层面的泛化。NE-Time 指出尽管WAM理论优势明确“相比于VLM 初始化的 VLA, 该方向尚不主流”——部分原因是微调SOTA视频模型(如Wan) 的计算成本超过了 VLM-based VLA 微调。范式革命的 conviction 在增强但基础设施还没跟上。06. 往更远处看WAM 这条路线最大的长期价值可能不在于任何单一的技术创新而在于它打开了一个全新的scaling story。VLA的scaling受限于机器人数据——每条轨迹都要真实操作或高质量仿真昂贵且有限。WAM可以同时吃机器人数据和互联网视频——后者几乎无限。你的模型能从烹饪视频里学蛋液怎么流从篮球视频里学弹跳轨迹从木工视频里学切割力学。这些知识全部可以迁移。Motus 已经在 50 任务上展示了这个 scaling 行为DreamZero 证明了多样化数据优于重复示教Vidar用20分钟适配新任务。如果这个趋势持续机器人训练的 bottleneck 就不再是采集了多少条示教轨迹 , 而是视频基座模型见过多少种物理现象。这将是一个完全不同的游戏。2026年的具身智能正在从让VLM学会动手转向让视频模型学会动手。这个范式转移能走多远让我们拭目以待…2026: VLA 将死WAM 当立 ? ? ? ? ?

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2577295.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！