机器人中的多模态——RoboBrain

news2026/3/31 16:04:02
论文下载地址arxiv.org/pdf/2502.21257代码地址https://github.com/FlagOpen/RoboBrain/数据集下载地址https://github.com/FlagOpen/ShareRobot/目录1.关于RoboBrain1.1 RoboBrain的潜在应用场景1.2 RoboBrain具备哪些能力2.关于ShareRobot数据集2.1 ShareRobot的主要特性2.2 ShareRobot数据集筛选标准2.3 ShareRobot数据标注流程2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计3.RoboBrain的模型结构3.1 总览3.2 规划模型3.3 可供性感知和轨迹预测4.RoboBrain的训练流程4.1 Phase1通用 OV 训练4.2 Phase2机器人训练5.RoboBrain的可视化推理结果6.代码推理过程1.关于RoboBrain1.1 RoboBrain的潜在应用场景智能家居领域在智能家居场景中机器人需要理解人类的自然语言指令并完成复杂任务。比如将“整理客厅”这样的抽象指令分解为具体子任务如识别并捡起地上的物品、将物品分类放置到相应位置等。通过物体可供性感知它能确定不同物品的抓取位置预测机械臂的操作轨迹精准地拿起和放置物品实现客厅的自动整理提升家居生活的便利性和智能化程度。工业制造领域在工业生产线上机器人需要执行高精度的操作任务。比如可以根据生产任务的要求规划机器人的动作序列比如在零件组装任务中准确规划机械臂抓取不同零件的顺序和路径。利用物体可供性感知它能快速识别零件的可抓取部位结合轨迹预测确保机械臂准确地抓取和组装零件提高生产效率和产品质量降低生产成本。物流仓储领域物流仓储场景下机器人需要在复杂环境中搬运和分拣货物。比如通过理解任务指令规划最优的搬运路径避免与障碍物碰撞。通过对货物和货架的可供性感知确定合适的抓取点和放置位置预测搬运过程中的轨迹高效地完成货物的搬运和分拣任务提升物流仓储的自动化水平和运营效率。1.2 RoboBrain具备哪些能力1.Planning长距离操作任务规划可将复杂操作指令分解为一系列易于管理的子任务如在“将杯子放到盘子上”任务中能依次规划出“伸手拿杯子”“抓住杯子”“抬起杯子”“将杯子移向盘子”“把杯子放在盘子上”“松开杯子”等子任务合理安排执行顺序确保任务高效完成。在“用茶壶倒水进杯子”任务里它能把任务分解为“靠近并拿起茶壶”“移动茶壶使壶嘴对准杯子”“倾斜茶壶倒水”等步骤展现出强大的任务规划能力。2.Affordance物体可供性感知能够识别和解释交互对象的可供性确定人类手与物体接触的区域并用边界框表示。面对“用瓶子喝水”指令时它能判断瓶子盖处于关闭状态并提供瓶盖区域的可供性信息帮助机器人准确理解与物体交互的可行区域为后续动作执行提供关键信息。3.Trajectory操作轨迹预测可以预测末端执行器或手在操作过程中的完整轨迹通过定义轨迹路标点为一系列2D坐标来实现。无论是简单还是复杂的操作都能依据视觉观察和任务指令准确预测2D轨迹且预测结果与实际轨迹结构紧密契合还能通过学习优化执行路径提高操作效率。在“拿起苹果”任务中能精准规划从起始位置到苹果位置再到目标位置的轨迹确保机器人平稳、准确地完成操作。4.视觉问答任务在机器人视觉问答RoboVQA和开放式环境问答OpenEQA等视觉问答任务中表现卓越。能根据机器人所处场景的视觉信息和提出的问题理解问题含义并给出准确答案帮助机器人更好地理解环境和任务要求与人类进行有效交互。在OpenEQA任务中面对关于环境理解的问题如“当前场景中是否可以执行某个动作”它能结合视觉信息和自身知识给出合理判断。2.关于ShareRobot数据集1.专为机器人操作任务设计的大规模、细粒度数据集。2.用于提升RoboBrain的规划、可供性感知以及轨迹预测能力。2.1 ShareRobot的主要特性1.细粒度Fine-grained每个数据点都包含与单个帧相关的详细低级规划指令提高了模型在正确时间执行任务的准确性。在机器人进行“将物品放置到指定位置”的任务时ShareRobot数据集能精确到每个动作对应的具体帧指导机器人何时、以何种方式进行操作。2.多维度Multi-dimensional该数据集标注了任务规划、物体可供性和末端执行器轨迹在任务处理上提供了更大的灵活性和精确性。比如在机器人操作场景中不仅规划了任务步骤还明确了物体可被操作的区域以及机械臂的运动轨迹。3.高质量High quality从Open-X-Embodiment数据集中筛选数据时建立了严格标准聚焦于高分辨率、准确描述、任务执行成功、可见的可供性和清晰的运动轨迹。基于这些标准验证了51403个实例为RoboBrain的核心能力奠定了基础。只有满足高分辨率图像、准确描述等条件的数据才会被纳入确保数据质量。4.大规模Largescale拥有1027990个问答对是用于任务规划、可供性感知和轨迹预测的最大开源数据集有助于更深入地理解从抽象到具体的复杂关系。大规模的数据量让模型能够学习到更多的任务模式和场景变化。5.丰富多样性Rich diversity与RoboVQA数据集有限的场景不同ShareRobot具有102个场景涵盖12种机器人机体和107种原子任务类型最小的任务单元如抓取某个物体。这种多样性使多模态大语言模型能够从各种现实世界场景中学习增强在复杂多步规划中的稳健性。机器人可以在不同场景、使用不同机体执行多种任务提升应对复杂情况的能力。6.易扩展性Easy scalability数据生成管道设计具有高扩展性便于随着新的机器人机体、任务类型和环境的发展进行扩展。这一特性确保 ShareRobot 数据集能够支持日益复杂的操作任务。当出现新的机器人类型或任务时能够方便地添加新数据。2.2 ShareRobot数据集筛选标准ShareRobot数据集的数据选择基于 OpenX-embodiment 数据集进行从中精心挑选了51403个实例这些实例将作为后续数据标注和模型训练的重要基础。数据筛选原则高分辨率图像高分辨率图像能提供更丰富准确的视觉信息。准确描述模型训练依赖于对任务的准确理解模糊或缺失的描述会干扰模型学习任务规划。成功状态丢弃任务失败的视频失败的任务演示无法为模型提供正确的操作范例可能误导模型学习。长视频长度丢弃帧数少于30帧的视频较短的视频包含的原子任务有限无法充分展示复杂任务的完整流程不利于模型学习多步骤操作长视频能涵盖更丰富的任务动作序列。物体未被覆盖移除目标物体或末端执行器被其他物体覆盖的视频模型需要准确识别末端执行器和物体的位置及可供性被覆盖的情况会增加识别难度影响模型训练效果。清晰轨迹不使用轨迹不清晰或不完整的演示数据不清晰或不完整的轨迹数据会降低模型学习的准确性。2.3 ShareRobot数据标注流程1.规划标注PlanningLabeling指令分解从每个机器人操作演示中提取30帧结合其高级描述借助Gemini工具将其分解为低级规划指令。为确保标注精确由三名注释者对这些指令进行审核和完善。在“将杯子放到盘子上”的操作演示里Gemini可能将其分解为“移动到杯子位置”“抓取杯子”等具体步骤注释者会检查这些步骤是否准确合理。生成问答对针对RoboVQA中的10种问题类型为每种类型设计5种不同模板。在数据生成过程中为每个实例随机选择每种问题类型的2个模板来生成问答对。这一操作将51403个实例扩展成了1027990个问答对。比如对于“放置杯子”任务可能有“目标是放置杯子下一步该做什么”等不同模板生成的问题对应的答案可能是“抓取杯子”等。在生成问答对时注释者会监控数据生成过程以维护数据集的完整性。2.可供性标注Affordance Labeling筛选与标注图像筛选出6522张图像依据其高级描述为每张图像标注可供性区域标注可供性区域的左上角坐标和右下角坐标。对于“拿起杯子”的任务图像会标注出杯子上适合抓取部位的边界框坐标。审核与完善对每个标注指令进行严格的人工审核和细化保证指令与相关可供性区域精确匹配提高标注的准确性。3.轨迹标注Trajectory Labeling筛选与标注图像挑选6870张图像按照低级指令为每张图像标注抓手的轨迹且每条轨迹至少使用三个坐标点表示。在“移动杯子”任务的图像中会标注出抓手在不同时间点的坐标来描述其运动轨迹。审核与完善对每个标注指令进行严格人工审核和细化确保标注的轨迹与实际操作中的轨迹精确对齐使标注数据能准确反映机器人的运动路径。2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计在ShareRobot数据集中出现频率最高的前20个原子动作的分布情况。3.RoboBrain的模型结构3.1 总览3.2 规划模型使用LLaVA作为基础框架由视觉编码器ViT、Projectior和大语言模型LLM三个主要模块组成。https://zhuanlan.zhihu.com/p/690526314视觉编码器采用SigLIP模型siglip-so400m-patch14-384它在WebLi数据集上以384x384分辨率进行预训练通过27个隐藏层将输入图像按14 x 14大小的补丁处理生成729个视觉标记相比传统CLIP架构SigLIP使用 sigmoid 损失函数提升了训练效率。投影Projectior由2层 MLP 组成负责将视觉编码器输出的视觉标记投影到文本嵌入的维度实现视觉特征与语言模型语义空间的对接。大语言模型采用Qwen2.5-7B-Instruct它具有28个隐藏层支持长达128K令牌的长上下文输入具备29种以上语言的多语言能力能基于人类语言指令和视觉标记以自回归方式生成文本响应为机器人操作任务提供规划能力。3.3 可供性感知和轨迹预测A-LoRA Module for Affordance Perception可供性指人类手与物体接触的区域通过边界框来表示。对于包含多个物体及其可供性的图像每个物体可能有N个可供性区域。A-LoRA模块帮助模型识别和解释交互对象的可供性使机器人能够理解在当前场景下可以对物体进行何种操作以及在物体的哪些部位进行操作。T-LoRA Module for Trajectory Prediction负责轨迹预测这里的轨迹指2D视觉痕迹。模型将轨迹路标点定义为一系列2D坐标。根据任务指令和视觉信息预测机器人末端执行器或手在操作过程中的完整轨迹确保机器人在执行任务时能准确规划运动路径提高操作的准确性和效率。4.RoboBrain的训练流程4.1 Phase1通用 OV 训练借鉴了LLaVA-OneVision的训练数据和策略构建一个具备通用多模态理解能力和视觉指令跟随能力的基础模型为在Phase2中提升模型的机器人操作规划能力奠定了基础。在RoboBrain模型的训练体系里通用OV训练是重要的起始阶段。它借助已有的优秀训练资源搭建基础1.通过特定数据集让Projector能更好地融合视觉与语言特征2.用大量数据提升模型对多模态知识的理解3.强化模型对指令的响应以及对高分辨率图像和视频的处理能力为后续专门针对机器人操作的训练做好准备逐步提升模型在机器人领域的综合表现Stage1利用来自LCS-558K数据的图像文本数据训练Projector促进视觉特征与大语言模型语义特征对齐。Stage1.5使用400万高质量图像文本数据训练整个模型以增强模型的多模态常识理解能力。Stage2进一步使用320万单图像数据以及来自 LLaVA-OneVision-Data 的160万图像和视频数据训练整个模型旨在提升RoboBrain的指令跟随能力并增进对高分辨率图像和视频的理解。4.2 Phase2机器人训练是RoboBrain模型训练的关键环节建立在Phase1通用OV训练的基础之上目的是使RoboBrain能够理解复杂、抽象的指令支持对历史帧信息和高分辨率图像的感知准确输出物体的可供性区域同时预测潜在的操作轨迹从而实现从抽象指令到具体机器人操作的转化提升其在机器人操作任务中的性能。Stage3收集了130万机器人数据这些数据来源于RoboVQA800K、ScanView-318K包含MMScan-224K、3RScan-43K、ScanQA-25K、SQA3d-26K以及ShareRobot-200K等数据集。这些数据包含丰富的场景扫描图像、长视频和高分辨率数据能支持模型感知多样环境其中ShareRobot数据集中的精细高质量规划数据可增强模型的操作规划能力。为解决灾难性遗忘问题从第一阶段选取约170万高质量图像文本数据与Stage3收集的机器人数据混合训练并对整个模型进行相应调整。Stage4利用ShareRobot数据集及其他开源来源的可供性和轨迹数据通过在训练过程中引入LoRA模块增强模型从指令中感知物体可供性和预测操作轨迹的能力赋予模型具体的操作能力。5.RoboBrain的可视化推理结果6.代码推理过程代码地址https://github.com/FlagOpen/RoboBrain/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2461766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…