DreamZero技术解析：当视频扩散模型成为机器人“物理大脑“

news2026/4/4 17:35:40

原文摘要翻译最先进的视觉-语言-动作VLA模型在语义泛化方面表现出色但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero一种基于预训练视频扩散主干网络构建的世界动作模型WAM。与 VLA 不同WAM 通过预测未来世界状态和动作来学习物理动力学利用视频作为世界演化的密集表征。通过联合建模视频和动作DreamZero 能够有效地从异构机器人数据中学习多样化技能而无需依赖重复的演示数据。这使得在真实机器人实验中相比于最先进的 VLA对新任务和新环境的泛化能力提升了超过 2 倍。重要的是通过模型和系统优化我们使得一个 140 亿参数的自回归视频扩散模型能够以 7Hz 的频率进行实时闭环控制。最后我们展示了两种跨形态迁移形式来自其他机器人或人类的纯视频演示仅需 10–20 分钟的数据即可在未见任务上获得超过 42% 的相对性能提升。更令人惊讶的是DreamZero 支持少样本的具身适应仅需 30 分钟的随操作数据即可迁移到新的具身形体同时保留零样本泛化能力。从流匹配数学原理到跨本体迁移的工程实现——World Action Model如何突破VLA的泛化瓶颈引言VLA的物理盲区与WAM的范式转移当前SOTA的Vision-Language-Action (VLA)模型如RT-2、π₀、GR00T N1展现出惊人的语义理解能力——你可以指令它将可乐罐移到Taylor Swift照片旁它能借助VLM预训练的互联网知识识别目标并完成操作。然而当面对解开鞋带这类未见过的物理动作时VLA会彻底失效。根本症结VLA继承自Vision-Language Model (VLM)而VLM的训练数据是静态图文对。它理解鞋带的语义却缺乏对解这一动作的时空几何、动力学与运动控制的表征。正如NVIDIA GEAR Lab在《World Action Models are Zero-shot Policies》中指出的VLM先验编码了做什么what却缺乏怎么做how的物理直觉。DreamZero提出了World Action Model (WAM)范式不再是直接从视觉映射到动作而是先预测未来世界状态视频再从中提取动作。这种世界模型逆动力学的架构让14B参数的视频扩散模型首次实现了零样本物理泛化——在未见任务上取得比SOTA VLA高2倍的成功率并能通过30分钟数据适应全新机器人本体。一、数学基础联合视频-动作预测的生成模型1.1 问题形式化分解联合分布关键洞察公式(1)右侧的分解揭示了WAM的本质——视频预测作为隐式视觉规划器动作预测作为逆动力学提取器。这种分解允许模型利用互联网视频预训练优化左侧乘数世界模型再通过少量机器人数据对齐右侧乘数动作策略。1.2 流匹配训练目标Flow Matching二、算法实现训练与推理的流程细节算法1Chunk-wise Flow Matching训练# 输入: 轨迹数据 {(o_t, a_t, c, q_t)}_{t0}^T # 超参数: Chunk大小 H24, Chunks数 K for step in range(N): # 1. 采样轨迹和起始点 traj sample_trajectory() l random.randint(0, T - H*K) # 2. VAE编码观测归一化动作 z_clean VAE_encode(traj.observations[l:lH*K]) # [K, H, D] a_clean normalize_actions(traj.actions[l:lH*K]) # 3. 分块处理 chunks_z split_into_chunks(z_clean, H) chunks_a split_into_chunks(a_clean, H) loss 0 context [] # 干净历史缓存 for k in range(K): # 4. 采样共享时间步标准版或解耦时间步Flash版 t_k random.uniform(0, 1) # 5. 添加噪声公式2 z_noise, a_noise randn_like(chunks_z[k]), randn_like(chunks_a[k]) z_t t_k * chunks_z[k] (1 - t_k) * z_noise a_t t_k * chunks_a[k] (1 - t_k) * a_noise # 6. 计算目标速度 v_target torch.cat([chunks_z[k] - z_noise, chunks_a[k] - a_noise], dim-1) # 7. 前向传播带因果注意力掩码 v_pred model(zz_t, aa_t, contextcontext, instructionc, propriotraj.proprio[lk*H], timestept_k) # 8. 流匹配损失公式3 loss w(t_k) * MSE(v_pred, v_target) # 9. Teacher Forcing使用真实数据更新上下文 context.append((chunks_z[k], chunks_a[k])) loss.backward() optimizer.step()算法2闭环自回归推理# 输入: 初始观测 o_0, 指令 c, 初始状态 q_0 kv_cache initialize_cache() obs_history [o_0] while not task_done: # 1. 编码当前观测历史 z_context VAE_encode(obs_history) # 2. 自回归生成未来chunks使用KV Cache actions_chunk [] for k in range(num_chunks): z_future, a_future autoregressive_denoise( model, contextkv_cache, instructionc, propriocurrent_proprio, num_steps16 # 或4步Flash模式 ) actions_chunk.append(a_future) kv_cache.update(z_future) # 更新缓存 # 3. 异步执行动作块48步30Hz 1.6秒 robot.execute_async(concatenate(actions_chunk)) # 4. 闭环修正获取真实观测替换预测 sleep(1.6) real_obs robot.get_observation() obs_history.append(real_obs) kv_cache.replace_last_frame(VAE_encode(real_obs)) # 关键防止误差累积三、架构创新自回归DiT与DreamZero-Flash3.1 自回归vs双向模态对齐的关键DreamZero采用自回归DiTDiffusion Transformer而非双向扩散基于三个关键考量特性双向扩散BERT-style自回归DreamZero上下文长度固定需降采样任意长支持历史累积帧率保持必须降采样30fps→10fps原生帧率精确时序对齐误差累积无法闭环修正KV Cache替换真实观测推理效率O(N)历史处理O(1)增量生成模态对齐的物理意义动作与视频必须在时间维度上精确对齐。双向模型为适配固定窗口需降采样视频破坏手爪闭合与视觉接触的毫秒级对应关系。自回归架构通过KV Cache保留所有历史帧的原生表示确保动作生成与视频帧的逐帧对齐。3.2 注意力掩码策略DreamZero使用非对称QKV注意力掩码因果掩码当前chunk只能attend到之前chunks的干净表示跨模态约束动作token可以attend到视频token逆动力学但视频token不能attend到动作token这确保了视频预测作为领导者动作预测作为跟随者符合物理因果世界状态变化先于动作执行。3.3 DreamZero-Flash解耦噪声调度标准扩散模型需16步去噪迭代难以满足实时控制目标200ms。DreamZero-Flash通过解耦噪声调度实现单步/4步推理训练-推理不匹配问题Beta分布偏置策略四、系统优化38倍加速的工程实现DreamZero通过三级优化将14B模型的推理延迟从5.7秒降至150毫秒38倍加速优化层级具体技术GB200加速比延迟系统级CFG并行双GPU分布1.8×3.0s DiT缓存速度方向一致性复用5.4×1.05s实现级 Torch Compile/CUDA Graphs10.9×520ms 内核优化cuDNN注意力14.8×385msNVFP4量化权重/激活4位16.6×343ms模型级DreamZero-Flash单步推理38×150ms关键技术细节DiT缓存利用流匹配中速度预测的方向一致性当相邻步骤速度余弦相似度阈值时复用缓存将有效步数从16降至4异步执行动作块执行1.6秒与推理并行实现7Hz有效闭环控制闭环修正每执行完一块动作用真实观测替换KV Cache中的预测帧防止误差累积五、实验验证数据、结果与消融5.1 数据集异构性优先于重复性DreamZero在AgiBot G1上收集的数据呈现高度异构性时长分布平均每片段4.4分钟包含~42个子任务远高于DROID的短片段环境覆盖22个独特环境家庭、餐厅、超市、咖啡店、办公室技能分布导航、躯干调整适应高度、双臂/单臂操作核心原则任务多样性重复性。不追求叠衬衫重复100次而是收集100种不同交互各执行1次的真实世界数据。5.2 主实验详细说明本实验旨在系统验证 World Action ModelWAM相比传统 Vision-Language-ActionVLA模型在数据效率、零样本泛化及微调稳定性上的优势。实验采用双阶段训练策略预训练→微调和双平台验证AgiBot G1 移动双臂机器人 Franka 单臂机器人构建了从通用物理理解到特定任务适应的完整评估体系。1. 机器人平台与数据收集哲学实验在两个截然不同的机器人本体上进行以验证方法的跨平台适用性AgiBot G1移动双臂机器人数据量约 500 小时7.2K episodes自行采集环境覆盖22 个真实场景家庭、餐厅、超市、咖啡店、办公室核心特点长程异构每个 episode 平均 4.4 分钟包含约 42 个子任务远超传统数据集的短片段多样化优先刻意避免单一任务的重复演示采集真实场景中的实用行为轨迹技能分布导航移动工作空间、躯干调整不同高度操作、物体操作Franka固定单臂机器人数据量使用公开 DROID 数据集最具异构性的开源机器人数据目的验证方法在公开可复现数据上的有效性2. 预训练阶段通用物理理解训练配置骨干网络Wan2.1-I2V-14B-480P140亿参数图像到视频扩散模型初始化利用 Web-scale 视频预训练权重继承物理动态先验训练步数100K 步AgiBot 和 DROID 各 100K 步Batch Size全局 128可训练参数所有 DiT 块、状态编码器、动作编码器/解码器冻结文本/图像编码器及 VAE对比基线设置为公平比较对 SOTA VLA 模型GR00T N1.6 和 π₀.₅设置两种初始化Scratch仅使用预训练 VLM 权重无机器人数据预训练Pretrained使用已在数千小时跨机器人数据上预训练的官方 checkpoint3. 评估协议零样本泛化测试默认评估设置未见环境未见物体训练与评估在不同地理位置进行确保分布外测试任务分类Seen Tasks训练分布内的任务如拾取放置、擦拭桌面Unseen Tasks全新任务如解鞋带、熨衣服、从人体模型摘帽子等4. 微调阶段特定任务适应与泛化保持在预训练基础上针对三个具体任务进行微调验证任务专业化与环境泛化的平衡微调任务数据AgiBot G1任务数据量特点Shirt Folding33小时5个顺序折叠阶段2种衬衫类型随机初始位置Fruit Packing12小时10个水果装袋随机组合和位置Table Bussing40小时5件垃圾5件餐具分类随机物体类型和位置训练配置训练步数每个任务 50K 步参数更新与预训练阶段一致更新 DiT 块及状态/动作编码器评估重点在全新环境中测试任务完成进度Task Progress检验微调后是否仍保持环境泛化能力5. 实验核心假设与验证逻辑本实验设计围绕三个核心假设展开验证数据多样性优于重复性通过对比多样化异构数据与重复演示的预训练效果验证 WAM 能否打破通用策略需要大量重复演示的传统认知。视频预训练先验的不可替代性通过对比 DreamZero视频扩散初始化与 VLAVLM 初始化在相同数据下的表现证明视频生成能力对物理动态理解的关键作用。微调不损泛化通过微调后在未见环境中的测试验证 WAM 的世界建模目标使模型学习物理规则本身而非特定环境的视觉特征从而避免 VLA 常见的微调即过拟合问题。5.3 已见任务表现AgiBot G1上的对比深绿色为DreamZero任务类别DreamZeroπ₀.₅ (Pretrained)GR00T N1.6 (Pretrained)倍数提升PnP Easy93.8%52.1%17.6%1.8× vs π₀.₅PnP Hard48.4%22.7%4.7%2.1× vs π₀.₅Contact-Rich49.0%9.2%4.2%5.3× vs π₀.₅AVG (Task Progress)62.2%27.4%8.4%2.3× vs π₀.₅关键发现在接触丰富任务Contact-Rich如折叠、擦拭中DreamZero优势最大5.3倍证明世界模型对精细物理交互的理解远超VLA即使是已见任务DreamZero的平均进度62.2%也显著高于预训练VLA27.4%证明异构数据训练优于重复演示DROID数据集对比右侧Task Progress: DreamZero82%vs π₀.₅69%vs GR00T N1.662%Success Rate: DreamZero75%vs π₀.₅42%vs GR00T N1.642%5.4 零样本泛化未见任务AgiBot G1未见任务详细分解AVG/RobotDreamZero(Scratch)π₀.₅ (Scratch)GR00T N1.6 (Scratch)π₀.₅ (Pretrained)GR00T N1.6 (Pretrained)AgiBot G1(Task Progress)39.5%0%0.7%16.3%5%关键洞察1. DreamZero 的零样本泛化能力DreamZero 在完全没有见过的新任务如解鞋带、熨衣服、从人体模型上摘帽子等上达到了39.5%的任务进度这是状态最优VLA模型π₀.₅ Pretrained16.3%的2.4倍。2. Scratch vs Pretrained 的反差VLA模型π₀.₅ 和 GR00T N1.6从VLM权重直接训练Scratch时几乎无法完成未见任务0%-0.7%必须经过大量机器人数据预训练才能有一定表现5%-16.3%DreamZero即使没有机器人预训练仅依靠视频扩散模型的世界先验知识就能有效泛化到新任务3. 为什么 DreamZero 只有 ScratchDreamZero没有Pretrain这一行是因为它直接继承了视频扩散模型Wan2.1的物理动态先验跳过了传统VLA的机器人数据预训练阶段。它的Scratch实际上是从视频生成权重开始而非从零随机初始化。4. 任务进度Task Progress的计算这个数字代表任务完成的百分比。例如在解鞋带任务中可能包括找到鞋带→抓住鞋带→解开结→拉出鞋带等多个阶段39.5%意味着平均完成了约40%的子步骤。这行数据有力地证明了世界动作模型WAM通过视频预测学习物理动态相比传统VLA具有更强的零样本任务泛化能力——即使在训练数据中没有见过的全新操作也能基于对物理世界的理解进行尝试。指标DreamZeroπ₀.₅GR00T N1.6DreamZero 优势Task Progress49%33%31%相对提升48%(vs π₀.₅)Success Rate22.5%7.5%12.5%提升3倍(vs π₀.₅)关键差异Task Progress vs Success Rate这两个指标衡量的维度不同Task Progress任务进度衡量任务完成的程度0-100%例如若任务是把5个物品放入盒子成功放了2个进度就是40%DreamZero 达到49%意味着在未见任务中平均能完成近一半的操作步骤Success Rate成功率衡量任务完全成功的比例二值成功/失败例如只有5个物品全部放入盒子才算成功DreamZero 的22.5%意味着每4-5次尝试中就有1次完全成功而基线模型每10次只有1次成功π₀.₅或不到2次GR00T N1.6为什么 Success Rate 提升比 Task Progress 更显著Success Rate 提升3倍22.5% vs 7.5%而 Task Progress 只提升48%49% vs 33%这说明DreamZero 更擅长完成任务不仅动作做得更多而且更有可能把任务做完基线模型容易半途而废虽然能做一些正确动作Task Progress 33%但经常在中途失败导致最终成功率很低7.5%DreamZero 的动作一致性更强得益于联合视频-动作预测它能更好地规划完整动作序列减少中途放弃的情况与 AgiBot G1 结果的对比相比 AgiBot G1DreamZero 39.5% vs π₀.₅ 16.3%Franka 上 DreamZero 的优势比例较小但绝对值更高原因 1DROID 是公开的异构数据集基线模型尤其是 π₀.₅-DROID已经在这个数据集上优化过原因 2Franka 是单臂操作任务复杂度相对较低VLA 模型的表现空间更大原因 3AgiBot G1 是移动双臂机器人环境更复杂DreamZero 的世界建模优势被进一步放大尽管如此DreamZero 在 Success Rate 上3倍的提升仍然是非常显著的证明即使在基线已经优化的设置下世界动作模型WAM在零样本任务泛化上依然碾压传统 VLA。5.4 后训练保持性测试DreamZero在特定任务微调后是否仍保持环境泛化能力任务DreamZeroπ₀.₅ (Scratch)GR00T N1.6 (Scratch)π₀.₅ (Pretrained)GR00T N1.6 (Pretrained)Shirt Folding92.5%1.5%2.5%92.5%65%Fruit Packing96%0%2.7%71%56%Table Bussing83%0%0%76%39%AVG90.5%0.5%9.8%79.8%53.3%关键结论1.DreamZero 微调后仍保持极强的环境泛化DreamZero 在微调后平均达到90.5%的任务进度而且这是在新环境与训练数据收集地点不同的地理区域中测试的结果。2.与预训练 VLA 的关键差异π₀.₅ (Pretrained)虽然在 Shirt Folding 上与 DreamZero 持平92.5%但在 Fruit Packing 和 Table Bussing 上明显落后71% vs 96%76% vs 83%GR00T N1.6 (Pretrained)在微调后出现明显的环境过拟合平均只有53.3%远低于 DreamZero 的90.5%3.为什么 DreamZero 能保持泛化这是因为 DreamZero 的世界建模World Modeling特性VLA微调时容易过拟合到训练环境的特定视觉特征和动作模式丧失对新环境的适应能力DreamZero通过视频预测学习物理动态即使针对特定任务微调也仍然保持对物理世界如何运作的理解因此能在新环境中表现稳定4.实际意义在真实机器人部署中通常需要针对特定任务进行后训练post-training。这组实验证明DreamZero 不仅零样本能力强而且在实际微调后不会牺牲泛化能力传统 VLA 虽然可以通过大量预训练达到较高性能如 π₀.₅ Pretrained但在新环境中的表现不如 DreamZero 稳定且需要大量预训练数据从零训练的 VLAScratch在微调后几乎无法工作0%-2.7%再次证明视频预训练先验的重要性5.3 跨本体迁移30分钟适应新机器人视频仅迁移Video-only Transfer源数据YAM机器人或人类演示视频10-20分钟无动作标签效果相比无迁移基线未见任务成功率相对提升42%意义人类视频可直接用于机器人训练无需昂贵的动作重定向小样本适应Few-shot Adaptation设置AgiBot G1预训练500小时→ YAM微调30分钟玩耍数据惊人结果适应YAM的同时保留零样本泛化——能在YAM上执行从未训练过的新任务数据效率打破每个新机器人需从头收集海量数据的诅咒六、消融实验验证设计决策Q1. 数据多样性Data Diversity数据类型Task Progress关键洞察Repetitive重复演示33% ± 4.2%传统方法每个任务多次重复采集Diverse多样化异构数据50%± 6.3%DreamZero 方法少量重复强调任务多样性解读多样性重复性使用同样数量的训练数据约500小时多样化数据的任务进度比重复演示高出 17个百分点提升51%打破传统认知传统VLA需要每个任务多次重复演示才能学习而 DreamZero 的世界建模目标使其能从异构、非重复的轨迹中有效学习物理动态方差更低虽然多样性数据的方差略高6.3% vs 4.2%但绝对性能优势明显且更符合真实场景数据收集的实际条件Q2. 模型规模Model Scale模型规模Task Progress关键洞察DreamZero (AR)5B21% ± 4.2%较小规模仍有一定能力DreamZero (AR)14B50% ± 6.3%规模效应显著VLA5B0% ± 0.0%完全失败VLA14B0% ± 0.0%即使扩大规模也无效解读DreamZero 的扩展性从 5B 到 14B性能提升29个百分点相对提升138%说明视频扩散骨干网的规模直接转化为下游控制性能架构差异的本质VLA基于VLM即使扩展到14B在多样化数据上仍然0% 完全失效这证明了视频预训练先验的不可替代性VLM在静态图像-文本数据上预训练缺乏时空动态理解世界建模的必要性只有具备视频生成能力的模型才能从异构机器人数据中有效学习数据效率即使是 5B 的 DreamZero21%也远超 14B VLA0%说明架构选择比单纯扩大规模更重要Q3. 架构对比双向 vs 自回归架构Task Progress标准差关键洞察BD(Bidirectional双向扩散)50%±14.4%性能波动大不稳定AR(Autoregressive自回归)50%±6.3%同样平均性能但更稳定解读平均性能持平两种架构在平均任务进度上没有差异都是50%但稳定性差异巨大AR 的优势方差降低 56%14.4% → 6.3%自回归架构在不同任务和环境中的表现更加一致KV Cache 效率自回归允许使用 KV Cache 进行高效推理支持长程依赖避免下采样失真双向模型通常需要固定长度序列导致视频帧率被下采样损害时序对齐AR 支持任意长度保持原生帧率选择依据虽然双向和AR都能达到相似的平均性能上限但AR 的稳定性和推理效率使其成为 DreamZero 的最终选择综合结论这组消融实验验证了 DreamZero 的三个核心设计决策数据策略优先采集多样化、长程、异构的真实世界操作数据而非重复演示单一任务模型规模基于14B视频扩散模型Wan2.1利用规模效应提升视频生成质量进而提升控制性能架构选择采用自回归AR架构而非双向扩散获得更稳定的泛化能力和更高效的推理性能最关键的是这些实验证明了WAMWorld Action Model的范式优越性——即使在相同数据规模和模型规模下基于视频预训练的架构DreamZero显著优于基于VLM的VLA架构且这种优势在扩大规模时更加明显。七、局限与未来方向当前局限计算门槛14B模型需H100/GB200级硬件边缘部署困难虽有5B版本性能损失约30%推理延迟150ms对于抛接球等高频反馈任务仍显不足视频幻觉扩散模型可能生成物理不一致的未来物体穿透、漂浮导致危险动作与VLA的互补性DreamZero并非取代VLA而是分层架构的关键组件高层规划VLA利用语义知识进行任务分解、常识推理低层执行WAM利用物理动态进行动作生成、环境交互未来方向VLA生成子目标打开抽屉DreamZero执行物理交互手爪轨迹、接触力控制。八、结论从行为克隆到物理理解DreamZero代表了机器人学习范式的根本转变传统VLA范式局限需要覆盖所有可能行为的海量重复数据缺乏物理常识。DreamZero WAM范式优势利用互联网视频预训练获得物理直觉通过联合生成实现零样本泛化。通过联合流匹配目标公式3、自回归闭环架构、解耦噪声调度Flash与38倍系统优化DreamZero在真实机器人上实现了数据效率从异构非重复数据学习无需重复演示零样本泛化未见任务成功率2倍于SOTA VLA跨本体迁移30分钟适应新机器人打破硬件绑定作为全面开源项目模型代码数据集DreamZero推动机器人社区从大数据大模型的暴力美学转向物理理解高效迁移的智能范式。当14B参数的视频扩散模型开始理解重力、接触与物体永久性我们或许正在见证具身智能的临界点。资源链接论文https://arxiv.org/abs/2602.15922v1https://arxiv.org/html/2602.15922v1代码https://github.com/dreamzero0/dreamzero创作不易禁止抄袭转载请附上原文链接及标题

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2482957.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！