[具身智能-56]：不同世界模型流派典型的代表人物？

news2026/3/20 14:42:49

在世界模型World Model的三大主流流派中每一派都有其灵魂人物和领军人物。这些科学家不仅提出了核心理论还带领团队将其转化为具体的模型产品。以下是结合2025-2026年最新进展的典型代表人物图谱1. 像素/视频生成派 (The Director Route) - 视频制作核心信条“只要视频生成得足够逼真模型就理解了物理世界。”代表人物 Tim Brooks Bill Peebles (OpenAI)身份OpenAI 研究科学家Sora 模型的核心开发者。贡献他们领导的团队在2024年初发布了Sora将世界模型的概念第一次以“文生视频”的形式引爆全球。他们证明了基于Transformer的扩散模型Diffusion Transformer可以直接在像素空间学习复杂的物理规律如流体、碰撞、光影。2025-2026动态继续推动Sora向交互式模拟进化让生成的视频不仅能看还能通过文本指令进行简单的“导演”干预如改变镜头角度、物体运动轨迹。 Cristóbal Valenzuela (Runway ML)身份Runway CEO兼首席研究员前艺术家。贡献推出了Gen-1, Gen-2以及2025年的GWM (General World Model)系列。他特别强调世界模型作为“创意工具”的属性致力于让艺术家能通过模型直接操控虚拟世界的物理属性如改变风速、重力。特点相比OpenAI的封闭Runway更倾向于将世界模型的能力开放给创作者强调“可控性”和“交互性”。 DeepMind Genie 团队 (Google)关键人物Scott Reed,Nando de Freitas(DeepMind领导层)。贡献发布了Genie和Genie 2/3。与Sora不同Genie 更侧重于“可行动的世界模型”Actionable World Model。它不仅能生成视频还能根据生成的视频反向训练出一个可玩的Agent智能体被视为通往通用游戏AI和机器人训练的关键一步。2. 潜在空间表征派 (The Chess Player Route) -机器人动作控制核心信条“预测像素是低效的真正的智能是在抽象空间中预测因果和状态。”代表人物 Yann LeCun (杨立昆)身份图灵奖得主Meta前首席AI科学家AMI Labs (Advanced Machine Intelligence)创始人兼首席科学家。地位世界模型概念的“教父”。他是这一路线最坚定的布道者和反对LLM大语言模型路线的旗手。核心贡献提出了JEPA (Joint-Embedding Predictive Architecture)架构特别是V-JEPA (Video JEPA)。理论核心主张模型不应重建像素那太浪费算力且充满噪声而应预测视频片段在抽象特征空间中的表示。这使得模型能忽略无关细节如背景纹理专注于物体间的因果逻辑。2025-2026大动作因与Meta在AI路线上的根本分歧LeCun认为LLM没有真正的理解于2025年底/2026年初出走创业成立AMI Labs。融资奇迹2026年3月AMI Labs宣布完成10.3亿美元的种子轮融资估值高达35亿美元吸引了包括谢赛宁 (Saining Xie)等顶尖学者加盟。这标志着资本对“非LLM路线”世界模型的巨大押注。他的目标是构建具有常识推理和长期规划能力的自主智能系统而非仅仅是聊天机器人。 Saining Xie (谢赛宁)身份纽约大学教授现加入LeCun的AMI Labs。贡献在视频理解和生成领域有深厚积累是LeCun理念的重要技术执行者和合作者。他在多模态自监督学习方面的研究为V-JEPA提供了重要的理论和实验支撑。3. 显式物理/3D混合派 (The Engineer Route) - 3D建模与精密控制核心信条“世界是三维的必须用几何和物理引擎来约束模型的幻觉。”代表人物 David Ha Andrej Karpathy (早期启蒙) / 现任自动驾驶领军者注虽然David Ha早在2018年就提出了World Models概念但在2025-2026年这一路线的代表人物更多集中在自动驾驶和机器人仿真领域。关键推手Waymo Research Team,Tesla AI Team (Ashok Elluswamy),NVIDIA Omniverse Team. 3D Gaussian Splatting (3DGS) 社区领军者代表人物Bernhard Kerbl(3DGS论文一作),Angjoo Kanazawa(UC Berkeley).贡献2024年爆发的3D Gaussian Splatting技术让世界模型有了“显式骨架”。这些研究者推动了将神经渲染NeRF/3DGS与动态预测模型结合的路线。即用3DGS构建静态或慢变的高精度场景用世界模型预测场景中动态物体的运动轨迹。应用场景这种混合架构成为了Waymo和NVIDIA Drive Sim的核心技术用于构建符合物理定律的自动驾驶仿真环境解决纯视频模型容易出现的“穿模”和“物理幻觉”问题。Fei-Fei Li (李飞飞) 与具身智能团队身份斯坦福教授World Labs (初创公司) 联合创始人。贡献她创立的World Labs(2024年成立2025-2026年发力) 专注于“空间智能” (Spatial Intelligence)。她的路线介于像素派和3D派之间强调模型不仅要生成视频更要理解3D空间结构和物理交互旨在让AI像人类一样在三维世界中导航和操作。她认为未来的世界模型必须是“懂物理”的。总结三派大佬的“神仙打架”流派领军人物 (2026视角)代表机构/项目一句话口号像素生成派Tim Brooks(OpenAI),Cristóbal Valenzuela(Runway)Sora, GWM, Genie“给我一段文字我还你一个逼真的平行宇宙。”潜在空间派Yann LeCun(AMI Labs),Saining XieV-JEPA, AMI Labs“别被像素迷惑真正的智慧在于抽象的逻辑推演。”3D混合派Fei-Fei Li(World Labs),Bernhard Kerbl,Waymo团队World Labs, Drive Sim, 3DGSWM“没有三维几何和物理约束的模型只是在编故事。”当前局势 (2026)LeCun的创业是最大变量他试图证明“不靠堆算力猜像素也能做出真智能”如果AMI Labs成功将彻底改变AGI的研发范式。OpenAI/Google继续沿着“大力出奇迹”的像素路线试图通过规模效应涌现出物理理解能力。工业界 (自动驾驶/机器人)则更务实地选择了3D混合路线因为安全容不得半点“幻觉”。这三股力量正在相互渗透视频模型开始引入3D约束3D模型开始学习神经渲染而LeCun的抽象模型也在尝试更好地连接感知与行动。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2430203.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！