AI新范式 02|拆解世界模型:它是如何理解物理规律的?

news2026/3/17 13:30:01
当AI学会了“重力加速度”它就真正开始理解这个世界引言从“知其然”到“知其所以然”在第一篇中我们谈到2026年是“世界模型元年”NVIDIA Cosmos、Google DeepMind Genie等代表性工作正在重塑AI对物理世界的理解。但一个核心问题悬而未决世界模型究竟是如何学会物理规律的大语言模型通过海量文本学会了“苹果是水果”但它不知道苹果从树上掉下来会怎样。世界模型的目标是让AI掌握后者——那些人类从婴儿期就开始建立的“物理直觉”。这需要完全不同的技术架构。如果把大语言模型比作一位博学的诗人它能用华丽的辞藻描述世界那么世界模型就是一位经验丰富的工程师它能在脑海中模拟世界的运转。本文将深入技术底层为你拆解✅ 世界模型的两大技术流派扩散模型 vs. 自回归模型✅ NVIDIA Cosmos的三驾马车Predict、Transfer、Reason✅ DeepMind Genie 3从单图到可交互世界的奥秘✅ 统一新范式为什么机器人“动作”可以被编码为“视频帧”✅ 前沿突破清华-斯坦福VLAW如何让世界模型“戒掉乐观病”一、世界模型的技术流派1.1 核心任务预测世界的下一个状态无论架构如何世界模型的核心任务是一致的给定当前世界状态和可能的动作预测下一时刻的世界状态。用数学语言表达P(st1∣st,at)P(s_{t1} | s_t, a_t)P(st1​∣st​,at​)其中sts_tst​当前世界状态可以是图像、激光雷达点云、机器人关节角度等ata_tat​执行的动作st1s_{t1}st1​预测的未来状态这个任务听起来简单但实现起来极其困难因为它要求模型内化物理规律重力、惯性、动量守恒、碰撞响应时空连续性物体在时间轴上的平滑变化因果推理动作与结果之间的必然联系多模态感知视觉、触觉、深度信息的一致性目前主流的世界模型分为两大技术流派扩散模型和自回归模型。1.2 扩散模型流派以NVIDIA Cosmos为代表核心思想从纯噪声开始通过多步去噪过程还原出真实视频帧。训练时模型学习“如何给视频加噪”和“如何从噪声中恢复”的逆过程。代表产品NVIDIA Cosmos平台的核心是Cosmos Predict这是一个基于扩散架构的世界生成模型。技术特点扩散目标在连续时空潜在空间上训练能够建模复杂、高维、多模态的分布长时序建模基于Transformer的去噪器可以扩展到长序列和多模态输入输出质量生成视频的高保真度单帧清晰度优于其他架构优点生成质量高细节丰富多模态分布建模能力强同一场景有多种可能的未来适合从文本/图像生成视频缺点推理速度慢需多步迭代长时序一致性难以保证难以实现实时交互1.3 自回归模型流派以DeepMind Genie为代表核心思想将视频预测视为序列建模问题像语言模型预测下一个词一样逐帧预测下一个视频帧。代表产品Google DeepMindGenie 3能够从单张图片生成可交互的2D世界。技术特点潜在动作空间无需人工标注模型自动从视频中发现可能的动作如左右移动、跳跃实时交互用户每做一个动作模型生成下一帧形成闭环无限环境生成可根据文本描述生成多样化的可探索世界优点推理速度快适合实时交互自然支持动作条件生成可生成无限多样的环境缺点单帧清晰度不如扩散模型长期预测误差累积物理准确性仍有挑战1.4 两大流派对比维度扩散模型 (Cosmos)自回归模型 (Genie)核心技术多步去噪逐帧预测生成质量⭐⭐⭐⭐⭐⭐⭐⭐推理速度⭐⭐⭐⭐⭐⭐⭐交互性弱强长时序一致性中等随时间衰减代表应用机器人训练数据生成可交互游戏世界有趣的是NVIDIA Cosmos平台实际上融合了两种架构其8个开源模型采用扩散模型与自回归模型的混合架构在2000万小时的多模态视频数据集上完成预训练。二、NVIDIA Cosmos深度拆解2.1 Cosmos三驾马车NVIDIA Cosmos平台包含三大核心模型组件分工明确Cosmos Predict世界生成器功能根据多模态提示文本、图像、视频生成动态环境的未来状态输出长30秒的高保真视频定位适合后训练用于机器人和自动驾驶相关主题的微调Cosmos Transfer数据增强器功能将物理AI仿真框架如CARLA、NVIDIA Isaac Sim的3D输入转换为可控的高保真视频应用改变视频背景、为驾驶数据添加新环境条件、为机器人导航生成数据价值大幅降低真实数据采集成本Cosmos Reason推理智能体功能多模态视觉语言模型利用先前知识、物理理解和常识来理解世界独特能力可基于一段起始视频为Cosmos Predict生成全新且多样的文本提示或对Predict和Transfer生成的合成数据进行评估和批判意义实现了生成-评估-再生成的闭环2.2 Cosmos的技术基石Cosmos的强大建立在几项关键技术之上1. 视频标记器Tokenizer包含连续型处理图像与离散型处理视频跨模态转换组件将原始视频压缩为潜在表示再解码回视频大幅降低计算复杂度2. 数据管道Cosmos Curator快速筛选、标注和去重海量传感器数据支持从2000万小时视频中精选高质量训练数据3. 护栏模块Guardrails输入内容过滤与输出合规性审查双重保障确保生成内容符合安全规范4. 基于Blackwell架构的硬件加速针对工业后训练和推理工作负载优化提供从训练到部署的全栈支持2.3 Cosmos Policy当世界模型学会控制机器人2026年2月NVIDIA发布了Cosmos Policy这是世界模型领域的一个重要突破。核心创新将机器人的动作、物理状态和成功率分数都编码为“视频帧”用与视频生成相同的扩散过程来学习。技术原理传统方法感知网络 控制网络分开设计Cosmos Policy所有信息图像、动作、状态、得分都视为“潜在帧”用一个统一模型学习这意味着一个模型可以同时具备三种能力预测动作指导机器人运动预测未来状态做世界建模预测期望回报用于规划实验结果在LIBERO和RoboCasa两个标准机器人操作基准上Cosmos Policy取得了平均98.5%的成功率远超传统方法模型平均成功率传统扩散策略72.4%OpenVLA-OFT97.1%Cosmos Policy (NVIDIA)98.5%这验证了一个重要结论将视频预训练的物理理解迁移到机器人控制任务中能够带来显著性能提升。三、DeepMind Genie 3深度拆解3.1 从Genie 2到Genie 3Google DeepMind的Genie系列代表了世界模型的另一条技术路线。Genie 3的突破在于3D环境生成从文本描述生成可交互的3D世界无限多样性输入迷宫式的地下城有陷阱和宝箱瞬间生成可探索世界与SIMA智能体闭环让SIMA在Genie 3生成的无限世界中训练和测试3.2 Genie 3 SIMA闭环这个闭环的运作方式文本生成环境研究员输入场景描述下达任务给SIMA指令如找到红色宝箱SIMA输出动作观察当前画面决定按键Genie 3生成下一帧根据动作更新世界状态循环直到任务完成或超时价值传统方法需要手工搭建测试环境现在只需一句话。这极大提升了场景多样性让智能体能在成千上万个不同关卡中训练。3.3 当前局限Genie 3 SIMA闭环仍面临挑战局限描述物理不可靠生成的世界中物理规律不稳定球不滚、人穿墙动作空间有限目前只支持方向键无法测试复杂交互无多智能体只支持单个角色探索任务定义靠人工任务完成判断尚未自动化DeepMind的定位是这个闭环主要用于测试而非训练——在Genie 3里失败的SIMA确实有问题但在Genie 3里成功不代表在现实中也能成功。四、统一新范式当“动作”成为“视频帧”4.1 Cosmos Policy的启示NVIDIA Cosmos Policy的一个核心思想值得深入思考将动作、状态、得分都编码为潜在帧用统一的扩散过程学习。这意味着什么传统上我们是这样看待机器人控制的图像 → 感知模块 → 特征 → 控制模块 → 动作 (CNN) (RL/规划)而在Cosmos Policy中变成了[图像1, 图像2, ...] → 扩散模型 → [动作1, 动作2, ...] [动作1, 动作2, ...] [下一帧1, 下一帧2, ...]动作不再是“输出”而是序列中的一部分。模型学习的是整个时空序列的联合分布而不是割裂的感知-控制两步。4.2 为什么这很重要这种统一范式带来了几个关键优势继承物理理解模型从视频预训练中学到的重力、惯性等知识自然迁移到动作预测中端到端学习不再需要人工设计中间特征多任务统一同一个模型既能做动作预测也能做未来状态预测还能做价值评估数据效率提升初始化自预训练模型比从头训练快得多实验结果也证实了这一点初始化自Cosmos Predict的模型在相同架构下性能显著优于无视频预训练的版本。4.3 未来方向这一范式正在推动世界模型向更统一、更强大的方向发展。AIRS的最新研究指出真正通用的世界模型需要具备长上下文建模和持续学习能力。研究发现当世界模型在足够多样的环境、长序列数据上训练并具备长上下文建模能力时就能激发出类似人类的上下文学习能力——根据新环境调整认知而不是死记硬背旧知识。五、前沿突破让世界模型“戒掉乐观病”5.1 世界模型的“阿喀琉斯之踵”尽管世界模型进展迅速但一个根本问题始终存在它们倾向于“盲目乐观”。现象模型会自动补全残缺的形状会把真实世界中倒塌的方块误认为堆叠状态仿佛活在一个“没有失误”的理想国里原因机器人训练数据多是成功的演示案例缺乏失败样本的滋养。这让世界模型从未见过“失败”的样子自然无法准确预测失败。5.2 VLAW清华-斯坦福的破局之作2026年2月清华大学陈建宇团队和斯坦福大学Chelsea Finn团队联合提出了VLAW框架首次实现了VLA策略与动作条件世界模型的协同迭代优化。核心创新让世界模型和机器人策略互相促进形成良性闭环VLA策略采集的真实交互数据 → 提升世界模型的物理保真度 世界模型生成的高质量虚拟数据 → 强化VLA策略本身四步实现微调世界模型用包含成功与失败的真实试错数据帮它戒掉“乐观病”质量把关借助Qwen-VL视觉-语言奖励模型自动判别虚拟数据的好坏大规模试错在校准后的世界模型中每个任务生成500条合成轨迹优化策略融合真实与虚拟的成功样本形成持续迭代实验结果在堆叠积木、打开书本、擦除白板标记等涉及频繁物理接触的任务中VLAW支撑下的机器人策略成功率大幅提升甚至能为真实世界的失败案例在虚拟空间中找到成功的解决路径。六、技术架构全景图综合以上分析我们可以绘制出当前世界模型的整体技术架构┌─────────────────────────────────────────────────────────────┐ │ 输入模态 │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ 文本 │ │ 图像 │ │ 视频 │ │ 传感器 │ │ │ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ │ └───────┼───────────┼───────────┼───────────┼─────────────────┘ ▼ ▼ ▼ ▼ ┌─────────────────────────────────────────────────────────────┐ │ Tokenizer/编码器 │ │ 压缩为潜在表示跨模态对齐 │ └─────────────────────────────────────────────────────────────┘ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 世界模型核心架构 │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 扩散模型分支 (NVIDIA) │ │ │ │ - 多步去噪生成高保真视频 │ │ │ │ - 适合离线的机器人训练数据生成 │ │ │ └─────────────────────────────────────────────────────┘ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 自回归模型分支 (DeepMind) │ │ │ │ - 逐帧预测支持实时交互 │ │ │ │ - 适合可交互环境生成 │ │ │ └─────────────────────────────────────────────────────┘ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 统一范式分支 (Cosmos Policy) │ │ │ │ - 动作、状态、视频统一为潜在帧 │ │ │ │ - 一个模型同时具备预测、控制、评估能力 │ │ │ └─────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────┘ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 输出应用 │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ 机器人控制 │ │ 自动驾驶仿真 │ │ 游戏世界生成 │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ └─────────────────────────────────────────────────────────────┘七、未来方向与挑战7.1 当前主要挑战挑战描述前沿探索物理一致性模型仍会生成违反物理的片段VLAW用失败数据校准长时序预测长期预测误差累积AIRS探索长上下文学习数据效率仍需海量视频数据符号知识库融合可解释性学到的“物理规律”难以提取WorldMind构建可迁移知识库实时性高质量生成速度慢硬件加速与模型轻量化7.2 前沿研究方向符号知识与神经网络的融合WorldMind框架通过自主构建符号化“世界知识库”统一过程经验和目标经验实现跨模型、跨环境的知识迁移长上下文学习AIRS研究证明当世界模型在多样环境、长序列数据上训练时能激发出类似人类的上下文学习能力生成式AI闭环从EEG生成fNIRS、从文本生成交互世界——生成模型之间的相互促进正在形成新生态物理先验注入将经典物理方程作为模型约束确保基础物理正确八、本系列回顾与预告序号标题核心内容01AI的paradigm shift为什么2026年是“世界模型”元年概念、背景、意义02拆解世界模型它是如何理解物理规律的技术架构、代表产品、前沿突破03多智能体系统MAS决定AI应用上限的“TCP/IP”待发布04从Copilot到AI ScientistAI如何重塑科研范式待发布05具身智能的“出清”之年人形机器人如何走出实验室待发布结语从“死记硬背”到“理解物理”世界模型最令人兴奋的地方在于它不再“死记硬背”训练数据而是试图内化数据背后的物理规律。当模型学会“物体落地会弹起”、“水会流动”、“玻璃会碎”这些常识时它才真正开始理解这个世界。从NVIDIA Cosmos的统一潜在帧范式到DeepMind Genie的可交互世界再到清华-斯坦福VLAW的闭环优化世界模型正在快速进化。2026年我们可能正站在一个转折点上——AI即将从“语言的巨人”变成“物理的行动者”。下一篇文章我们将探讨世界模型如何与多智能体系统结合以及为什么MCP、A2A等协议正在成为决定AI应用上限的关键基础设施。敬请期待《AI新范式 03多智能体系统MAS决定AI应用上限的“TCP/IP”》参考资料NVIDIA. (2026). Cosmos Policy: Advancing robot control with world foundation models. The Robot ReportDeepMind. (2026). Genie 3 SIMA: 智能体训练闭环解析. CSDN博客WorldMind: 通过知识型经验学习对齐智能体世界模型. Hugging Face论文NVIDIA Cosmos 官方文档. NVIDIAWaymo发布基于Genie 3的世界模拟模型. 盖世汽车AIRS研究静态世界模型无法真正通用. 深圳市人工智能与机器人研究院Cosmos世界基础模型. 百度百科Waymo unveils DeepMind-powered world simulation model. Automotive World清华-斯坦福VLAW框架让世界模型戒掉“乐观病”. 光明网本文为系列文章第二篇共12篇。欢迎关注、收藏、转发与更多开发者一起探索AI新范式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2419554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…