机器人中的多模态—

机器人中的多模态——RoboBrain

news2026/3/31 16:04:02

论文下载地址arxiv.org/pdf/2502.21257代码地址https://github.com/FlagOpen/RoboBrain/数据集下载地址https://github.com/FlagOpen/ShareRobot/目录1.关于RoboBrain1.1 RoboBrain的潜在应用场景1.2 RoboBrain具备哪些能力2.关于ShareRobot数据集2.1 ShareRobot的主要特性2.2 ShareRobot数据集筛选标准2.3 ShareRobot数据标注流程2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计3.RoboBrain的模型结构3.1 总览3.2 规划模型3.3 可供性感知和轨迹预测4.RoboBrain的训练流程4.1 Phase1通用 OV 训练4.2 Phase2机器人训练5.RoboBrain的可视化推理结果6.代码推理过程1.关于RoboBrain1.1 RoboBrain的潜在应用场景智能家居领域在智能家居场景中机器人需要理解人类的自然语言指令并完成复杂任务。比如将“整理客厅”这样的抽象指令分解为具体子任务如识别并捡起地上的物品、将物品分类放置到相应位置等。通过物体可供性感知它能确定不同物品的抓取位置预测机械臂的操作轨迹精准地拿起和放置物品实现客厅的自动整理提升家居生活的便利性和智能化程度。工业制造领域在工业生产线上机器人需要执行高精度的操作任务。比如可以根据生产任务的要求规划机器人的动作序列比如在零件组装任务中准确规划机械臂抓取不同零件的顺序和路径。利用物体可供性感知它能快速识别零件的可抓取部位结合轨迹预测确保机械臂准确地抓取和组装零件提高生产效率和产品质量降低生产成本。物流仓储领域物流仓储场景下机器人需要在复杂环境中搬运和分拣货物。比如通过理解任务指令规划最优的搬运路径避免与障碍物碰撞。通过对货物和货架的可供性感知确定合适的抓取点和放置位置预测搬运过程中的轨迹高效地完成货物的搬运和分拣任务提升物流仓储的自动化水平和运营效率。1.2 RoboBrain具备哪些能力1.Planning长距离操作任务规划可将复杂操作指令分解为一系列易于管理的子任务如在“将杯子放到盘子上”任务中能依次规划出“伸手拿杯子”“抓住杯子”“抬起杯子”“将杯子移向盘子”“把杯子放在盘子上”“松开杯子”等子任务合理安排执行顺序确保任务高效完成。在“用茶壶倒水进杯子”任务里它能把任务分解为“靠近并拿起茶壶”“移动茶壶使壶嘴对准杯子”“倾斜茶壶倒水”等步骤展现出强大的任务规划能力。2.Affordance物体可供性感知能够识别和解释交互对象的可供性确定人类手与物体接触的区域并用边界框表示。面对“用瓶子喝水”指令时它能判断瓶子盖处于关闭状态并提供瓶盖区域的可供性信息帮助机器人准确理解与物体交互的可行区域为后续动作执行提供关键信息。3.Trajectory操作轨迹预测可以预测末端执行器或手在操作过程中的完整轨迹通过定义轨迹路标点为一系列2D坐标来实现。无论是简单还是复杂的操作都能依据视觉观察和任务指令准确预测2D轨迹且预测结果与实际轨迹结构紧密契合还能通过学习优化执行路径提高操作效率。在“拿起苹果”任务中能精准规划从起始位置到苹果位置再到目标位置的轨迹确保机器人平稳、准确地完成操作。4.视觉问答任务在机器人视觉问答RoboVQA和开放式环境问答OpenEQA等视觉问答任务中表现卓越。能根据机器人所处场景的视觉信息和提出的问题理解问题含义并给出准确答案帮助机器人更好地理解环境和任务要求与人类进行有效交互。在OpenEQA任务中面对关于环境理解的问题如“当前场景中是否可以执行某个动作”它能结合视觉信息和自身知识给出合理判断。2.关于ShareRobot数据集1.专为机器人操作任务设计的大规模、细粒度数据集。2.用于提升RoboBrain的规划、可供性感知以及轨迹预测能力。2.1 ShareRobot的主要特性1.细粒度Fine-grained每个数据点都包含与单个帧相关的详细低级规划指令提高了模型在正确时间执行任务的准确性。在机器人进行“将物品放置到指定位置”的任务时ShareRobot数据集能精确到每个动作对应的具体帧指导机器人何时、以何种方式进行操作。2.多维度Multi-dimensional该数据集标注了任务规划、物体可供性和末端执行器轨迹在任务处理上提供了更大的灵活性和精确性。比如在机器人操作场景中不仅规划了任务步骤还明确了物体可被操作的区域以及机械臂的运动轨迹。3.高质量High quality从Open-X-Embodiment数据集中筛选数据时建立了严格标准聚焦于高分辨率、准确描述、任务执行成功、可见的可供性和清晰的运动轨迹。基于这些标准验证了51403个实例为RoboBrain的核心能力奠定了基础。只有满足高分辨率图像、准确描述等条件的数据才会被纳入确保数据质量。4.大规模Largescale拥有1027990个问答对是用于任务规划、可供性感知和轨迹预测的最大开源数据集有助于更深入地理解从抽象到具体的复杂关系。大规模的数据量让模型能够学习到更多的任务模式和场景变化。5.丰富多样性Rich diversity与RoboVQA数据集有限的场景不同ShareRobot具有102个场景涵盖12种机器人机体和107种原子任务类型最小的任务单元如抓取某个物体。这种多样性使多模态大语言模型能够从各种现实世界场景中学习增强在复杂多步规划中的稳健性。机器人可以在不同场景、使用不同机体执行多种任务提升应对复杂情况的能力。6.易扩展性Easy scalability数据生成管道设计具有高扩展性便于随着新的机器人机体、任务类型和环境的发展进行扩展。这一特性确保 ShareRobot 数据集能够支持日益复杂的操作任务。当出现新的机器人类型或任务时能够方便地添加新数据。2.2 ShareRobot数据集筛选标准ShareRobot数据集的数据选择基于 OpenX-embodiment 数据集进行从中精心挑选了51403个实例这些实例将作为后续数据标注和模型训练的重要基础。数据筛选原则高分辨率图像高分辨率图像能提供更丰富准确的视觉信息。准确描述模型训练依赖于对任务的准确理解模糊或缺失的描述会干扰模型学习任务规划。成功状态丢弃任务失败的视频失败的任务演示无法为模型提供正确的操作范例可能误导模型学习。长视频长度丢弃帧数少于30帧的视频较短的视频包含的原子任务有限无法充分展示复杂任务的完整流程不利于模型学习多步骤操作长视频能涵盖更丰富的任务动作序列。物体未被覆盖移除目标物体或末端执行器被其他物体覆盖的视频模型需要准确识别末端执行器和物体的位置及可供性被覆盖的情况会增加识别难度影响模型训练效果。清晰轨迹不使用轨迹不清晰或不完整的演示数据不清晰或不完整的轨迹数据会降低模型学习的准确性。2.3 ShareRobot数据标注流程1.规划标注PlanningLabeling指令分解从每个机器人操作演示中提取30帧结合其高级描述借助Gemini工具将其分解为低级规划指令。为确保标注精确由三名注释者对这些指令进行审核和完善。在“将杯子放到盘子上”的操作演示里Gemini可能将其分解为“移动到杯子位置”“抓取杯子”等具体步骤注释者会检查这些步骤是否准确合理。生成问答对针对RoboVQA中的10种问题类型为每种类型设计5种不同模板。在数据生成过程中为每个实例随机选择每种问题类型的2个模板来生成问答对。这一操作将51403个实例扩展成了1027990个问答对。比如对于“放置杯子”任务可能有“目标是放置杯子下一步该做什么”等不同模板生成的问题对应的答案可能是“抓取杯子”等。在生成问答对时注释者会监控数据生成过程以维护数据集的完整性。2.可供性标注Affordance Labeling筛选与标注图像筛选出6522张图像依据其高级描述为每张图像标注可供性区域标注可供性区域的左上角坐标和右下角坐标。对于“拿起杯子”的任务图像会标注出杯子上适合抓取部位的边界框坐标。审核与完善对每个标注指令进行严格的人工审核和细化保证指令与相关可供性区域精确匹配提高标注的准确性。3.轨迹标注Trajectory Labeling筛选与标注图像挑选6870张图像按照低级指令为每张图像标注抓手的轨迹且每条轨迹至少使用三个坐标点表示。在“移动杯子”任务的图像中会标注出抓手在不同时间点的坐标来描述其运动轨迹。审核与完善对每个标注指令进行严格人工审核和细化确保标注的轨迹与实际操作中的轨迹精确对齐使标注数据能准确反映机器人的运动路径。2.4 ShareRobot数据构造过程2.5 ShareRobot的动作统计在ShareRobot数据集中出现频率最高的前20个原子动作的分布情况。3.RoboBrain的模型结构3.1 总览3.2 规划模型使用LLaVA作为基础框架由视觉编码器ViT、Projectior和大语言模型LLM三个主要模块组成。https://zhuanlan.zhihu.com/p/690526314视觉编码器采用SigLIP模型siglip-so400m-patch14-384它在WebLi数据集上以384x384分辨率进行预训练通过27个隐藏层将输入图像按14 x 14大小的补丁处理生成729个视觉标记相比传统CLIP架构SigLIP使用 sigmoid 损失函数提升了训练效率。投影Projectior由2层 MLP 组成负责将视觉编码器输出的视觉标记投影到文本嵌入的维度实现视觉特征与语言模型语义空间的对接。大语言模型采用Qwen2.5-7B-Instruct它具有28个隐藏层支持长达128K令牌的长上下文输入具备29种以上语言的多语言能力能基于人类语言指令和视觉标记以自回归方式生成文本响应为机器人操作任务提供规划能力。3.3 可供性感知和轨迹预测A-LoRA Module for Affordance Perception可供性指人类手与物体接触的区域通过边界框来表示。对于包含多个物体及其可供性的图像每个物体可能有N个可供性区域。A-LoRA模块帮助模型识别和解释交互对象的可供性使机器人能够理解在当前场景下可以对物体进行何种操作以及在物体的哪些部位进行操作。T-LoRA Module for Trajectory Prediction负责轨迹预测这里的轨迹指2D视觉痕迹。模型将轨迹路标点定义为一系列2D坐标。根据任务指令和视觉信息预测机器人末端执行器或手在操作过程中的完整轨迹确保机器人在执行任务时能准确规划运动路径提高操作的准确性和效率。4.RoboBrain的训练流程4.1 Phase1通用 OV 训练借鉴了LLaVA-OneVision的训练数据和策略构建一个具备通用多模态理解能力和视觉指令跟随能力的基础模型为在Phase2中提升模型的机器人操作规划能力奠定了基础。在RoboBrain模型的训练体系里通用OV训练是重要的起始阶段。它借助已有的优秀训练资源搭建基础1.通过特定数据集让Projector能更好地融合视觉与语言特征2.用大量数据提升模型对多模态知识的理解3.强化模型对指令的响应以及对高分辨率图像和视频的处理能力为后续专门针对机器人操作的训练做好准备逐步提升模型在机器人领域的综合表现Stage1利用来自LCS-558K数据的图像文本数据训练Projector促进视觉特征与大语言模型语义特征对齐。Stage1.5使用400万高质量图像文本数据训练整个模型以增强模型的多模态常识理解能力。Stage2进一步使用320万单图像数据以及来自 LLaVA-OneVision-Data 的160万图像和视频数据训练整个模型旨在提升RoboBrain的指令跟随能力并增进对高分辨率图像和视频的理解。4.2 Phase2机器人训练是RoboBrain模型训练的关键环节建立在Phase1通用OV训练的基础之上目的是使RoboBrain能够理解复杂、抽象的指令支持对历史帧信息和高分辨率图像的感知准确输出物体的可供性区域同时预测潜在的操作轨迹从而实现从抽象指令到具体机器人操作的转化提升其在机器人操作任务中的性能。Stage3收集了130万机器人数据这些数据来源于RoboVQA800K、ScanView-318K包含MMScan-224K、3RScan-43K、ScanQA-25K、SQA3d-26K以及ShareRobot-200K等数据集。这些数据包含丰富的场景扫描图像、长视频和高分辨率数据能支持模型感知多样环境其中ShareRobot数据集中的精细高质量规划数据可增强模型的操作规划能力。为解决灾难性遗忘问题从第一阶段选取约170万高质量图像文本数据与Stage3收集的机器人数据混合训练并对整个模型进行相应调整。Stage4利用ShareRobot数据集及其他开源来源的可供性和轨迹数据通过在训练过程中引入LoRA模块增强模型从指令中感知物体可供性和预测操作轨迹的能力赋予模型具体的操作能力。5.RoboBrain的可视化推理结果6.代码推理过程代码地址https://github.com/FlagOpen/RoboBrain/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2461766.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！