华为等团队揭秘:机器人“预知未来“比“见多识广“更可靠?

news2026/4/15 0:00:46
这项由华为技术有限公司联合多伦多大学共同完成的研究发表于2026年的arXiv预印本平台论文编号为arXiv:2603.22078v2。有兴趣深入了解的读者可以通过该编号查询完整论文内容。在机器人技术飞速发展的今天如何让机器人在复杂多变的真实环境中稳定工作一直是科学家们面临的重大挑战。就像人类在陌生环境中需要依靠经验和预判能力一样机器人也需要某种智慧来应对各种突发状况。目前主流的机器人控制方案主要分为两大流派一种是让机器人博览群书通过大量的视觉和语言数据训练获得广泛知识另一种则是让机器人学会预知未来通过观看大量视频来理解世界如何运转变化。华为技术团队的这项研究就像是在两种不同教育方式之间进行了一场全面对比。第一种方式可以比作让学生通过阅读百科全书来学习世界知识这就是所谓的视觉-语言-行动模型VLA。第二种方式则像是让学生通过观看大量纪录片来理解事物发展规律这就是世界行动模型WAM。研究团队想要回答一个关键问题当机器人面对从未遇到过的环境变化时哪种学习方式能让它表现得更加稳定可靠一、两种教育方式的根本差异要理解这两种方法的区别可以用培养一个厨师的过程来类比。传统的视觉-语言-行动模型就像是让厨师通过阅读大量菜谱和食材介绍来学习烹饪。这种方法让机器人能够理解番茄是红色的、刀具用来切割这样的静态知识并且能够根据语言指令执行相应动作。就像一个读过很多菜谱的厨师能够按照食谱一步步制作出美味佳肴。而世界行动模型则采用了完全不同的学习策略它更像是让厨师通过观看无数个烹饪视频来学习。在这些视频中厨师能够看到油温如何影响食材变化、调料添加后食物颜色如何改变、火候控制如何影响最终口感等动态过程。这种学习方式让机器人不仅知道应该怎么做更重要的是理解这样做之后会发生什么。研究团队发现这种差异带来了截然不同的学习需求。视觉-语言-行动模型需要在训练过程中接触大量多样化的数据包括不同的机器人操作视频、各种环境下的任务演示甚至还需要网络上的图片和文本数据来建立广泛的世界知识。这就像培养一个全才厨师需要让他了解各国菜系、不同食材特性、营养搭配原理等方方面面的知识。相比之下世界行动模型的训练过程要简洁得多。由于这类模型的大脑已经通过观看海量视频学会了理解世界动态变化的规律在针对具体机器人任务进行训练时只需要相对较少的演示数据就能快速掌握操作技能。这就像一个已经通过观看大量烹饪节目掌握了食材变化规律的人学习新菜谱时会比完全的新手快得多。二、设计严苛测试检验真实能力为了公平比较这两种方法的优劣研究团队设计了一套极其严格的测试方案就像是为机器人安排了一场全方位压力测试。他们不仅使用了现有的LIBERO-Plus基准测试还专门开发了一个全新的RoboTwin 2.0-Plus测试平台。这个测试平台的设计理念很有意思它模拟了机器人在真实世界中可能遇到的各种意外情况。研究团队识别出了七个主要的干扰类型每一种都代表着现实世界中常见的变化因素。摄像头视角的变化是最直观的一种干扰。就像你平时在家里从某个角度看客厅突然换到另一个位置整个房间的布局看起来就完全不同了。机器人也面临同样的挑战当摄像头位置、角度或距离发生变化时原本熟悉的环境可能变得面目全非。机器人自身状态的变化则更加复杂。研究团队会随机调整机器人关节的初始位置或者改变机械手的开合状态。这就像是让一个习惯了右手写字的人突然改用左手需要重新适应全新的操作感受。语言指令的变化考验的是机器人的理解能力。同样是按响铃铛这个任务测试中可能会改成按下服务铃或者让铃铛发出声音。这种变化看似简单但对机器人的语言理解和任务泛化能力提出了很高要求。光照条件的变化可能是最接近真实世界的挑战。研究团队会改变灯光的颜色、亮度、方向和阴影效果模拟从清晨到深夜、从室内到室外的各种光照环境。就像人类在不同光照条件下识别物体的能力一样机器人也需要适应这些变化。背景环境的改变则测试机器人的抗干扰能力。研究团队会更换桌面材质、改变墙壁颜色甚至添加各种纹理和图案。这就像是让机器人在完全陌生的房间里执行熟悉的任务看它是否还能保持稳定的表现。图像噪声的添加更是对机器人视觉系统的严峻考验。研究团队会在机器人的视觉输入中添加运动模糊、高斯模糊、缩放模糊、雾化效果和玻璃模糊等五种不同类型的噪声。这就像是让机器人在雾天、雨天或者透过毛玻璃观察世界一样困难。最后物体布局的变化则考验机器人在杂乱环境中的工作能力。研究团队会在工作台上随机添加3到15个无关物体并且轻微移动目标物体的位置和方向。这模拟了真实世界中环境总是不够整洁、物品位置经常发生微调的情况。三、令人意外的测试结果当所有测试完成后结果让研究团队感到既惊喜又深思。在RoboTwin 2.0-Plus这个专门针对双臂协作机器人设计的测试平台上世界行动模型展现出了显著的优势。以LingBot-VA为代表的世界行动模型在原始任务中就达到了92.1%的成功率而在面对各种干扰时总体成功率仍然保持在74.2%的高水平。相比之下经过精心设计和大量数据训练的π0.5模型虽然在某些单项测试中表现不俗但总体稳定性明显不如世界行动模型综合成功率为58.6%。更有趣的是一些混合方法比如MOTUS模型它既使用了视频生成技术又保留了传统的视觉-语言处理模块其表现恰好介于两者之间达到了71.5%的成功率。在LIBERO-Plus这个针对单臂机器人的测试平台上结果同样支持了研究团队的发现。Cosmos-Policy这个世界行动模型在原始任务中达到了惊人的98.5%成功率即使在各种干扰条件下仍然保持了82.2%的优异表现。令人惊讶的是传统方法中表现最好的π0.5模型在这个平台上反而取得了85.7%的最高综合成绩甚至超过了一些世界行动模型。这种看似矛盾的结果实际上揭示了一个重要现象不同的机器人平台和任务类型对这两种方法的敏感度是不同的。双臂协作任务由于其复杂性更能体现出世界行动模型在理解动态交互方面的优势。而单臂任务虽然相对简单但如果训练数据足够丰富多样传统方法仍然能够取得优异成绩。四、不同干扰类型下的表现差异深入分析具体的测试结果研究团队发现了一个非常有趣的规律世界行动模型在面对视觉类干扰时表现格外出色而对几何配置变化的适应能力相对较弱。在光照变化测试中LingBot-VA保持了89.0%的高成功率而π0.5则下降到49.6%。这种差异的根源在于两种模型的学习机制不同。世界行动模型通过观看大量视频见识过各种光照条件下物体的变化过程就像一个经验丰富的摄影师无论在什么光线下都能准确判断物体的真实状态。在图像噪声干扰测试中这种优势更加明显。当研究团队在机器人的视觉输入中添加各种模糊和噪声效果时LingBot-VA的成功率仍然保持在80.9%而π0.5则大幅下降至64.9%。通过对Cosmos-Policy预测结果的可视化分析研究团队发现了一个令人惊叹的现象即使输入图像被噪声严重干扰这个模型预测的未来画面仍然非常清晰准确就像具备了某种去噪能力。物体布局变化的测试同样展现了世界行动模型的优势。当工作台上出现大量干扰物体时LingBot-VA的成功率保持在87.9%而π0.5则降至56.8%。这说明通过视频学习获得的空间理解能力帮助机器人更好地在杂乱环境中锁定目标物体。然而当测试涉及摄像头视角变化时情况变得复杂起来。LingBot-VA的成功率降至28.9%甚至低于π0.5的45.6%。这个结果提醒我们虽然世界行动模型在理解动态变化方面有优势但对于几何空间关系的泛化能力仍有提升空间。机器人初始状态变化的测试结果更加发人深省。LingBot-VA在这种干扰下的成功率降至36.2%而π0.5为27.6%。这说明当机器人自身的物理配置发生变化时两种方法都面临挑战但世界行动模型略胜一筹。五、性能优势背后的代价虽然世界行动模型在稳定性测试中表现优异但研究团队也发现了一个不容忽视的问题计算效率。这就像是拥有了一辆性能卓越的超级跑车但油耗也相当惊人。在推理速度测试中最快的传统模型π0.5每次决策只需要63毫秒而最慢的世界行动模型LingBot-VA在某些配置下需要5.23秒相差超过80倍。这种巨大的速度差异主要来源于视频生成过程的复杂性。世界行动模型需要先预测未来的视觉状态然后基于这个预测来生成动作指令。这个过程就像是让机器人先在脑海中演练一遍动作然后再执行虽然能够获得更好的效果但时间成本也大大增加。具体来说影响计算速度的关键因素是去噪步数。在视频生成过程中模型需要通过多次迭代逐步从噪声中恢复出清晰的未来画面就像是用橡皮擦一点点擦除草稿中的错误线条。去噪步数越多预测结果越准确但所需时间也越长。例如GE-Act模型通过将视觉预测的去噪步数设置为1将动作预测的去噪步数设置为10实现了相对较快的推理速度300毫秒但仍然比π0.5慢近5倍。而LingBot-VA为了获得最佳效果在RoboTwin 2.0测试中使用了25步视觉去噪和50步动作去噪导致了极慢的推理速度。为了解决这个问题一些研究团队开始探索新的优化策略。Fast-WAM和GigaWorld-Policy等新方法尝试在测试时跳过视频生成过程直接预测动作将推理时间分别减少到190毫秒和360毫秒。虽然仍然比传统方法慢但已经有了显著改善。这种性能与速度之间的权衡反映了当前技术发展的现状我们可以选择追求最高的任务成功率但需要接受较长的响应时间或者选择更快的响应速度但可能需要在某些复杂场景下妥协性能。六、混合方法的启示在这次大规模对比研究中最有启发性的发现之一是混合方法的表现。这些方法就像是在两种教育理念之间寻找平衡点既不完全依赖博览群书也不纯粹追求预知未来而是将两者的优势巧妙结合。MOTUS模型采用了一种特别有趣的设计思路。它使用预训练的视频生成模型来理解动态变化同时保留独立的视觉-语言模块来处理动作生成。这种设计就像是让一个厨师既通过观看烹饪节目学习食材变化规律又通过阅读菜谱掌握具体的操作步骤。结果显示MOTUS在机器人初始状态变化测试中表现最佳成功率达到85.0%甚至超过了纯粹的世界行动模型。VLA-JEPA则采用了另一种混合策略。它在传统的视觉-语言模型基础上添加了通过人类视频学习得到的未来状态预测能力。这就像是给一个通过阅读学习的学生补充了一些实际观察经验。虽然这种预测能力不如专门的视频生成模型那么强大但仍然为模型带来了显著的稳定性提升在LIBERO-Plus测试中取得了77.9%的综合成功率。这些混合方法的成功表明将动态理解能力引入机器人控制系统的方式是多样的不一定需要完全采用世界行动模型的架构。关键在于如何恰当地结合两种学习机制的优势避免各自的劣势。更重要的是混合方法的表现验证了研究团队的一个重要推测让机器人具备预测能力确实能够提升其稳定性但这种预测能力的获得方式可以是灵活的。可以通过专门的视频生成模型来获得也可以通过在传统方法中引入预测任务来实现。七、对未来发展的思考这项研究的意义远远超出了技术层面的比较它为整个机器人领域的发展方向提供了重要启示。就像GPS导航技术的出现改变了人们的出行方式一样世界行动模型可能代表着机器人智能发展的一个重要转折点。从数据需求的角度来看世界行动模型展现出了一种更加高效的学习模式。传统的视觉-语言-行动模型需要大量精心标注的机器人操作数据而且这些数据通常需要涵盖各种不同的环境和条件。这就像是培养一个全科医生需要让他在各个科室都实习一遍。相比之下世界行动模型的大脑已经通过互联网上的海量视频掌握了基本的物理规律和动态变化模式在转向具体的机器人任务时只需要相对较少的演示数据就能快速适应。这种学习模式更接近人类的学习方式我们不需要亲身体验每一种可能的情况而是通过观察和理解一般规律来应对新的挑战。但是研究也揭示了当前技术的局限性。计算效率问题仍然是制约世界行动模型实际应用的主要障碍。在需要快速响应的场景中比如自动驾驶或者工业生产线几秒钟的决策延迟可能是不可接受的。更深层的问题在于当前的世界行动模型对几何空间关系的理解仍然不够深入。当机器人需要从不同角度观察同一个场景或者适应不同的物理配置时这些模型的表现还有很大提升空间。这提醒我们真正的机器人智能不仅需要理解动态变化还需要具备强大的空间推理能力。从更宏观的角度来看这项研究预示着机器人技术正在向更加智能化的方向发展。未来的机器人可能不再是简单的指令执行者而是具备预测和规划能力的智能体。它们能够在执行任务之前就预见可能的结果并据此调整自己的行为策略。说到底这项研究告诉我们一个重要道理在人工智能的世界里预知未来的能力可能比博学多闻更加重要。当机器人能够理解行动的后果预测环境的变化时它们就能在复杂多变的真实世界中表现得更加稳定可靠。这不仅仅是技术上的进步更可能是机器人从工具向伙伴转变的关键一步。当然这个转变过程中还有很多技术挑战需要解决比如如何提高计算效率、如何增强空间理解能力等。但毫无疑问这个方向代表着机器人技术发展的一个重要趋势值得我们持续关注和深入研究。QAQ1什么是世界行动模型WAMA世界行动模型是一种新的机器人控制方法它通过观看大量视频来学习世界如何运转变化能够预测自己的行动会带来什么结果。就像让机器人先在脑海中预演一遍动作然后再实际执行这样能让机器人在面对新环境时表现更稳定。Q2世界行动模型比传统视觉语言行动模型VLA强在哪里A世界行动模型在应对环境变化时更稳定可靠。当光照条件改变、出现图像噪声或环境变得杂乱时世界行动模型的成功率能保持在80-90%而传统方法可能下降到50-60%。这是因为它通过视频学习掌握了物体变化的规律就像经验丰富的师傅能在各种条件下都保持稳定发挥。Q3世界行动模型有什么缺点吗A最大的缺点是速度太慢。传统方法做决策只需要63毫秒而世界行动模型可能需要几秒钟因为它需要先预测未来画面再生成动作。另外当摄像头角度发生变化或机器人初始姿态改变时世界行动模型的适应能力也不如预期这说明它对空间几何关系的理解还有待提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2518075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…