机器人终于学会“先想清楚再动手“了?

news2026/5/8 2:54:37
这项研究由香港大学、上海人工智能实验室、上海交通大学和香港中文大学联合开展论文以预印本形式发布于2026年4月15日编号为arXiv:2604.14125有兴趣深入了解的读者可通过该编号查询完整论文。你有没有见过那种特别令人抓狂的场景——你让一个人帮你从桌上那堆东西里把红色的杯子拿给我他看了半天要么拿错了要么手伸过去又缩回来像在做某种奇怪的体操现在把这个场景换成机器人你大概就明白了机器人操控领域长期以来面临的核心难题如何让机器人既能听懂复杂的语言指令又能看清楚具体要操作哪个物体还能干得漂亮地完成动作这支来自多所顶尖高校的研究团队给出了一个颇具启发性的答案他们将其命名为HiVLA。**一、机器人大脑的两难困境**要理解HiVLA解决的是什么问题不妨先想一想人类厨师是怎么工作的。一位经验丰富的主厨一方面拥有丰富的料理知识——懂得什么菜该用什么火候、什么食材怎么搭配另一方面他的双手又需要极其精确地掌握刀功、控制切片的厚度。这两件事虽然都由同一个人完成但本质上是两种截然不同的能力一种是高层次的知识与判断另一种是低层次的精细动作控制。现在假设你打算让一个厨师学徒既当料理顾问、又当执行厨师并且让他通过反复练习一道菜来全面进化——结果很可能是练着练着他把那道菜做得越来越熟练但原本从书本上学来的广博知识却慢慢淡忘了。这个现象在机器人领域叫做灾难性遗忘。现有的大多数VLA模型即Vision-Language-Action模型可以简单理解为能看图、能理解语言、能控制动作的一体化机器人控制系统正是陷入了这个困境。这类模型通常以大型视觉语言模型为基础这些基础模型通过海量网络数据训练拥有相当强的常识推理能力。但当研究者把它们拿来在机器人操控数据上进行专项训练时原有的推理能力会不同程度地受损。毕竟机器人操控的数据量相比网络数据少得多而且非常专业化这种窄化训练很容易让模型的通用能力打折扣。**二、分工协作给机器人装上两套系统**HiVLA的核心思路是让思考和动手这两件事彻底分开。具体来说整个系统分为两个层次上层是一个负责规划的大脑由一个不做低级训练的视觉语言模型承担它只负责看图、理解指令、决定下一步该做什么、以及锁定要操作的目标物体在哪里下层是一个专门负责执行的双手由一个扩散变换器模型Diffusion Transformer简称DiT承担它不需要关心整体任务逻辑只需要根据上层传下来的精确指示把动作做出来。这种分工方式的关键优势在于上层的大脑不需要接触任何低层次的动作控制数据它的通用推理能力得以完整保留而下层的双手则可以专心打磨精准动作的执行能力不被复杂的语义推理任务干扰。上层规划器的工作流程可以这样理解每当机器人需要执行一步动作时视觉语言模型会观察当前的场景图像同时参考整体任务目标、上一步执行了什么动作、以及机械臂的夹持器当前处于什么状态。基于这些信息它会产生一个结构化的行动计划这份计划包含下一个子任务的文字描述比如拾取左侧的蓝色积木、需要执行的动作类型抓取还是放置、目标物体的名称以及一个精确的边界框——也就是目标物体在原始高分辨率图像中的坐标位置。这个边界框的产生是HiVLA整套方案里非常关键的一环。边界框的本质是视觉语言模型对该看哪里的明确定位它将抽象的语义指令和具体的空间位置联系起来让下层执行模型不需要自己去猜测我该去操作哪个物体。**三、放大镜的魔力从全局看到局部细节**规划器生成边界框之后系统会做一件听起来很简单、但实际上非常关键的事用边界框在原始的1920×1080高清图像上裁剪出一块局部区域得到目标物体的高分辨率特写图。这里有一个很微妙的设计决策。一般的系统处理图像时往往会把原始的高清图像压缩、下采样到较低的分辨率以节省计算资源。但这样做的代价是许多精细的视觉细节就丢失了——比如一个细小的铃铛、一个纤细的杯子把手、或者几个形状相同但颜色不同的积木。对于需要精细操控的任务来说这些细节恰恰是成败的关键。HiVLA的做法是全局场景图像用正常的分辨率输入而目标物体的局部特写图则直接从原始高清图像上裁剪保留了最高的像素质量。这就好比你在远处看一群人认不清谁是谁但只要拿出望远镜把某个人的脸放大看清楚识别任务就容易得多了。不过这里还有一个问题裁剪出来的局部图本身不携带任何关于它在整张图的什么位置的信息。如果下层的执行模型只看到一块局部特写它可能搞不清楚这个物体到底在机器人工作台的左侧、右侧还是中间。为了解决这个问题研究团队在局部特写图的每个图像块patch上都额外附加了一组绝对位置编码——简单说就是每个图像块都被告知它在原始高清图像坐标系中的具体位置。这一技巧源自于目标检测领域的经典方法让执行模型同时拥有放大的细节图和精确的空间坐标两者缺一不可。**四、执行模型的三重听觉从全局到局部再到语义**下层的执行模型也就是DiT动作专家是整套系统的双手。它的核心任务是接受上层规划器传来的各种信息把它们转化为机械臂的实际动作序列。在实现方式上研究团队设计了一种名为级联交叉注意力机制的架构。这个名字听起来有点复杂但本质可以理解为每一个Transformer计算块内部依次进行三次倾听每次倾听不同类型的信息从粗到细、从场景到目标、从视觉到语义逐步聚焦。第一次倾听的是全局场景信息。执行模型首先看到整张全局场景图经过DINOv2和SigLIP这两个视觉编码器处理获得对整个工作台环境的宏观理解——桌子上有哪些东西、机器人大致在哪个位置、背景是什么样子。这就好比一个工人在开始精细操作前先环顾整个工作台对环境有个整体把握。第二次倾听的是带位置信息的局部特写。执行模型接着看到目标物体的高清局部图同时这张图的每个像素块都携带了它在全局坐标系中的精确位置信息。这一步让执行模型知道我要操作的那个东西长什么样以及它在哪里这两件事同时到位缺一不可。第三次倾听的是子任务的语言指令。执行模型最后听到规划器给出的具体子任务描述比如拾取蓝色积木或者把章鱼印章压到红色垫子上。这一步让执行模型知道我现在该执行什么动作是抓取还是放置是轻推还是按压。这三次倾听按照从粗到细、从环境到目标、从视觉到语言的顺序依次叠加正是研究团队所说的粗到细注入策略。实验结果也证明这个顺序是最优的——其他排列方式的性能都有不同程度的下滑。在动作生成的具体机制上HiVLA采用了一种叫做条件流匹配Conditional Flow Matching的扩散模型框架。它的工作原理可以这样理解执行模型从一团随机的噪声动作序列出发在上下文条件的引导下一步步将这团噪声去噪最终输出一段连贯、平滑的动作序列。整个过程类似于雕刻家从一块粗糙的石料出发根据心中的构想一点点凿去多余的部分最终得到精美的雕塑。**五、在高难度考场上的测试成绩**研究团队在两套环境中对HiVLA进行了全面测试一套是名为RoboTwin 2.0的高保真仿真平台另一套是真实物理世界中的机器人。仿真平台上的测试覆盖了9个任务分为简单任务和困难任务两类。简单任务通常只需要一个技能动作比如按下订书机、敲响铃铛、提起锅等困难任务则要求机器人在完成多个连续动作的同时理解复杂的语义和空间关系比如将三个积木按照指定顺序叠放或者在三个完全相同的铃铛中点击最右边那个。这些任务特别考验机器人对左、中、右等空间语言的理解以及在杂乱场景中精确识别目标物体的能力。测试是在领域随机化设置下进行的意思是每次测试时桌面背景、桌上的干扰物体、桌子高度、灯光条件都会随机变化极大地增加了视觉感知的难度。每个任务进行100次独立测试取最后三个模型检查点的平均成功率。测试结果相当显著。HiVLA的总平均成功率达到83.3%而此前表现最好的对比系统H-RDT只有70.6%差距达到12.7个百分点。更广为人知的π0系统成功率仅为45.6%HiVLA比它高出了37.7个百分点。另外两个对比系统π0.5和StarVLA的成功率分别为44.8%和46.4%HiVLA同样大幅领先。在细分类别上简单任务方面HiVLA的平均成功率为96.0%而困难任务平均成功率为73.2%比H-RDT的54.6%高出了18.6个百分点。特别是在叠放三个积木这个难度最高的任务上π0和π0.5的成功率只有1%几乎完全失败StarVLA也只有16%H-RDT达到20%而HiVLA达到了37%——虽然仍有提升空间但相比其他系统已经是质的飞跃。**六、子任务分解到底有多重要**研究团队还做了一个消融实验测试了一个叫做去掉技能分解的变体也就是不让规划器把任务分解成细粒度的子任务而是直接把整体任务描述传给执行模型。结果发现在简单任务上这个变体和完整版HiVLA几乎没有区别——毕竟简单任务本身只需要一个动作整体指令和子任务指令内容相同。但在困难任务上去掉子任务分解后的平均成功率从73.2%下降到64.4%差距约为8.8个百分点。这个结果说明把复杂任务分解成一对一的细粒度子指令能显著降低执行模型的认知负担。当模型只需要关心现在抓这个物体而不是完成整个任务流程中的某一步它可以更专注地利用局部视觉信息生成精准动作而不是分心去猜测任务进度。此外研究团队还观察到了一个有趣的自我纠错现象。当执行模型在某一次抓取中失败了物体没有被成功抓住规划器会通过观察当前场景图像发现子任务尚未完成从而重新发出同一个视觉语言指令让执行模型重新尝试。这种独立的监督和纠错能力是端到端一体化模型所不具备的。**七、面对故意出错的规划器执行模型有多稳**分层系统有一个常见的质疑如果上层规划器出了错会不会像多米诺骨牌一样把下层执行模型也拖垮研究团队专门设计了一组扰动测试来回答这个问题。他们人为地向边界框坐标和语言指令中注入不同程度的噪声从20%到100%的错误率观察执行模型在这种情况下的表现。边界框方面即便误差注入率高达100%边界框完全错误执行模型仍然保持了57.0%的成功率。这是因为执行模型同时接收全局场景图像当局部特写图指向了错误的地方时全局图像提供了兜底的视觉信息让执行模型能在一定程度上自行校正。语言指令方面误差注入对成功率的影响就相当线性了——误差率每上升20%成功率大致下降20%左右到100%误差时成功率降至12%。这说明执行模型对语言指令的依赖性很强语义指导是必不可少的——但这也正是设计的本意。这组实验揭示了HiVLA在鲁棒性上的一个良好特性对视觉定位误差有相当强的容错能力对语义指令则严格遵从。**八、走进现实世界在真实杂乱环境中的表现**在真实物理机器人上研究团队测试了更具挑战性的场景用颜色和位置区分不同目标物体。比如点击左边的铃铛、把绿色的杯子放到托盘上、把红色积木放到盘子里——这些任务的共同特点是桌上有多个形状相同的物体机器人必须根据颜色或位置信息准确锁定目标。真实世界的训练数据量非常有限——只有360个遥控操作的演示并且这些数据是通过GroundingDINO和SAM2两个工具自动生成边界框标注的不需要人工逐帧标注。测试结果显示在单目标场景下HiVLA的表现普遍优于H-RDT点击一个铃铛的成功率HiVLA为13/30H-RDT为8/30放置一个杯子HiVLA为21/30H-RDT仅4/30放置一个积木HiVLA为20/30H-RDT为9/30。在多目标场景下差距更加明显。放置三个杯子时H-RDT的成功次数为0/30完全失败而HiVLA达到了6/30放置三个积木时H-RDT同样为0/30HiVLA为7/30。这些数据表明依赖纯全局视觉特征的模型在真实杂乱场景下无法有效区分相同形状但颜色不同的物体而HiVLA通过视觉定位和高清局部特写的配合在这一场景下保持了稳健的表现。**九、消融实验每个设计决定都有它的道理**研究团队还系统地验证了几个关键设计选择的必要性。关于是否需要高清局部特写他们对比了从640×360低分辨率图像裁剪局部图和从原始1080p高清图像裁剪局部图的两种方案。低分辨率版本在涉及精细结构的任务如提起锅的细长把手上表现明显下降整体平均成功率从83.3%降至75.2%。关于是否需要绝对位置编码去掉位置编码后整体成功率从83.3%降至76.8%。最明显的损失出现在点击三个铃铛任务上——成功率从98%暴跌至80%。道理不难理解三个形状完全相同的铃铛执行模型要区分左、中、右依靠的正是空间位置信息没有了精确的位置编码模型就无法可靠地区分它们。关于三类信息的注入顺序研究团队测试了所有六种排列组合。结果显示只使用局部图或只使用全局图时平均成功率都在70%左右两者结合时成绩明显提升而在两者结合的基础上全局→局部→语言这一顺序即先看整体场景、再看目标特写、最后听语言指令是最优的达到83.3%符合从粗到细的直觉逻辑。**十、系统效率够快才能用于现实**对于机器人控制系统而言响应速度至关重要。研究团队的VLM规划器在未经专项优化的情况下每次推理需要1.9秒——这对于高频实时控制来说太慢了。但关键在于规划器并不需要每帧都运行它只在需要决定下一个子任务时才触发。执行模型的动作推理则只需要0.162秒可以以较高频率运行。通过让规划器和执行模型异步并行运行规划器在后台思考的同时执行模型继续执行当前动作整个系统实现了8Hz的控制频率足以应对大多数桌面操控任务的实时要求。研究团队也指出规划器的推理速度还有很大的软件加速空间未来有望进一步提升。说到底HiVLA的贡献在于提供了一条切实可行的路径让机器人操控系统同时拥有聪明的大脑和灵巧的双手而且这两者可以独立升级迭代——当未来出现更强大的视觉语言模型时只需换掉上层规划器当有更好的执行模型时只需替换下层的DiT。这种模块化的思路让系统的进化变得更加灵活。当然当前版本也有其局限。37%的叠放三个积木成功率说明在需要精确空间推理和多步连续操作的超长流程任务上系统仍有相当大的提升空间。此外真实世界数据的采集仍然依赖人工遥控操作如何进一步降低数据采集成本也是值得继续探索的方向。你可能会好奇这样的系统离真正进入家庭或工厂还有多远目前的测试环境虽然加入了大量随机化干扰但仍然是相对受控的桌面操控场景距离应对开放环境中的不可预期状况路还相当长。但每一步扎实的技术进展都是在为那一天铺路。有兴趣深入探究的读者可以通过arXiv编号2604.14125查阅完整论文和项目主页。QAQ1HiVLA和普通的机器人控制模型有什么本质区别A普通的VLA模型把语言理解和动作控制捆绑在一起训练结果往往是推理能力和动作精度互相拖累。HiVLA把这两件事彻底分开上层用视觉语言模型负责理解指令和定位目标完全不做动作训练保住了推理能力下层专门的扩散变换器负责把规划结果转化为精确动作。两者各司其职互不干扰。Q2HiVLA的高清局部特写功能具体是怎么工作的A上层规划器会在高清图像上生成一个边界框标出目标物体的位置。系统随后从原始1920×1080分辨率的图像上直接裁剪出这个区域作为特写图输入给执行模型。这个特写图的每个图像块还附带了它在全局坐标系中的精确位置信息让执行模型同时知道物体长什么样以及它在哪里缺一不可。Q3如果规划器给出了错误的边界框HiVLA还能正常工作吗A有一定的容错能力。测试表明即使边界框完全错误执行模型仍能保持约57%的成功率。原因是执行模型同时接收全局场景图像作为辅助参考当局部特写图信息出错时全局图像可以提供一定程度的兜底信息帮助模型自我校正。但如果语言指令出错成功率则会按比例下降语义指导是系统不可或缺的核心。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2557859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…