世界模型EP01:DreamZeroDreamDojo 世界模型与机器人智能的新范式
发布时间:2026年3月18日 06:30世界模型这个概念,从2024年偶尔听到,到如今已经非常热门。延续之前的三个系列科普,Robot Data EP10 Robot Data第一季访谈总结,和Human Data 总结篇:Human Data—The “Key” to Robot Data,以及Robot Foundation model系列,2026年上半年,石麻笔记会对世界模型做一个系列科普。世界模型第一篇,我们有幸邀请到DreamZero和DreamDojo两个工作的参与者,高深远博士。他目前是香港科技大学的PhD,主要的研究方向是interactive world model以及相关课题。他同时也是英伟达研究院GEAR的成员,与Yuke Zhu和Jim Fan合作。📋 本文目录World model路线分类什么叫world action model(WAM)?自动驾驶和机器人的world model的区别Dreamzero的方法介绍DreamDojo方法介绍DreamZero和DreamDojo如何联动怎么看3D数据数据怎么进一步迭代world model怎么和RL结合1. World model路线分类对"world model"这个概念来说,这个名词最早应该是从做RL的人那里来的。因为在强化学习里,需要有一个model,对环境进行建模,而这个环境就可以理解为world。简单来说,world model本质上是一个state transition function:输入是action和state,输出是下一个state。它和policy是一种互补关系。可以理解为,你把action交给world model,world model告诉你下一个state;这个state再交给policy,policy再输出新的action,如此反复,与world model持续交互。我开始做world model,是因为当时在上海AI Lab做intern。那时候特斯拉已经做出了一些world model的工作。我一开始做的是自动驾驶数据合成,当时正好image diffusion、video diffusion刚出来一些工作。我在用diffusion做自动驾驶数据合成时,就在想,既然可以用diffusion做数据生成,为什么不直接做一个world model?于是我们开始做world model。从流派上讲,world model在最抽象的层面就是一个action-conditioned的状态转移方程。但action可以有多种模态表示,state的表示形式也可以有很多种。Video Generation Model-Pixel Space目前最主流的是基于video generation的world model,因为这种方式最scalable,完全data-driven,也得益于video diffusion的发展。JEPAJEPA这一类的方法,是Lecun一直在推的。他的核心观点是:state不应该表示在pixel space,而应该表示在latent space。原因在于,他认为预测pixel对decision making并不合理。他喜欢举例说,人进入一个新房间时,不可能精确预测每一个像素;在街上行走做决策时,也不会去预测每个人的脸长什么样。这些低层次的细节既几乎不可能预测,也与决策无关。让模型去预测这些内容,只是在消耗容量,去拟合本质上无法预测、也无助于决策的东西。因此,过于low-level的信息不应该成为world model的预测目标。他的想法是构造一个更具语义性的latent space,在这个空间中进行预测,只保留对decision making有用的信息。这个latent space可以通过unsupervised方法,或者借助其他task的监督来构造,使其对决策更有帮助,同时避免预测低层细节。这是Lecun他们那一派的思路。JEPA里提到的EMB模型,可以参考 专访Yilun Du:基于EBM和视频生成的具身智能研究路线Dynamics Model另外一类是dynamics model。其实world model和forward dynamics model在定义上基本一致。北美一些学者在推的dynamics model,核心区别在于state的表示方式。他们会把state表示为高度抽象的结构,比如key points,或者graph结构,用来表示物体状态及其与手的关系。这种表示既不是latent space,也不是video的pixel space,而是非常抽象的结构化表示,可能包含key points或物理属性。这种方法的好处在于,早期或传统robotics很喜欢这种高度抽象的表示。因为它便于few-shot或zero-shot迁移,可以快速把人的demonstration迁移到新任务上。但在我看来,这类方法通常需要很多假设,例如对物体材料属性的假设,以及较强的归纳偏置。它本质上不是一个完全data-driven的方法,虽然在小样本场景下可能很有用,但难以充分受益于大规模数据,因为其中加入了大量人工prior。Yunzhu在Dynamics Model方向上有很多探索,可以参考之前的访谈 对话李昀烛:通用操作新解法——基于学习的动力学模型3D World Model还有一类是李飞飞World Lab为代表的3D路线。我认为这种方法有优点也有缺点。它的流程是把next state prediction拆成几个阶段:首先显式地用3D表示重建整个世界;重建完成后,如果改变动作或视角,再进行生成和render,从而得到下一个observation。也就是说,它把next state prediction分解为"重建"和"render"两个步骤。优点是因为显式进行了3D重建,空间一致性可以做得非常强。但render这一步是单独处理的,因此整个流程不是纯end-to-end。简单来说,3D世界重建好之后,如果有行人行走、车辆运动、液体流动等动态过程,这些dynamics需要单独再去模拟。可以通过rule-based方法,也可以通过learning方法,但世界重建和dynamics模拟是decouple的,不是统一的端到端建模。整体而言,这种dynamics的模拟方式不算特别scalable。基于物理引擎的World Model还有一类world model,是英伟达等在推的基于物理引擎的world model。物理引擎本身就具备world model的功能:给它action,它就能模拟出下一个state。优点是physics可以非常精确,例如完全符合牛顿定律。但问题在于,它很难做到足够diverse。引入新的物体通常需要手工设计assets。不过这点也在改善,现在有很多3D generation方法可以自动生成大量assets和场景。总体来看,这一类方法在pipeline上和李飞飞那种3D路线类似:先进行重建,再用某种方式模拟dynamics,最后render出结果,并不是一个纯end-to-end的方法。Genesis也是这条路线,可以参考之前的访谈 Genesis 发布:全新机器人物理引擎——它会变革机器人仿真吗?2. 什么叫world action model(WAM)?这是一个非常好的问题。我们之所以称它为world action model,是为了强调模型同时预测action的能力。像DreamZero以及一系列类似的工作,本质上也可以看作world model。传统意义上的world model可以理解为一个state transition function:输入是state和action,输出是下一个state。在这种框架下,作为条件输入的action可以有多种不同形式。DreamZero其实是把world model和如何根据未来state的预测decode出action的inverse dynamics model组合到了一个模型中。如果把它看作一种world model,那么其中的ac
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2581431.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!