AutoEval:现实世界中通才机器人操作策略的自主评估

news2025/5/15 20:39:02

25年3月来自 UC Berkeley 和 Nvidia 的论文“AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。

可规模化且可复现的策略评估一直是机器人学习领域长期存在的挑战。评估对于评估进展和构建更优策略至关重要,但在现实世界中进行评估,尤其是在能够提供统计上可靠结果的规模上,耗费大量人力时间且难以获得。评估日益通才的机器人策略,需要日益多样化的评估环境,这使得评估瓶颈更加突出。为了使现实世界中的机器人策略评估更加实用,本文提出 AutoEval,一个能够在极少人工干预的情况下全天候自主评估通才机器人策略的系统。用户将评估作业提交到 AutoEval 队列,与 AutoEval 交互,类似于使用集群调度系统提交软件作业的方式,AutoEval 将在提供自动成功检测和自动场景重置的框架内调度策略进行评估。

AutoEval 几乎可以完全消除评估过程中的人工干预,实现全天候评估,并且评估结果与手动进行的真实评估结果高度一致。为了促进机器人社区对通才策略的评估,开放多个 AutoEval 场景,这些场景均来自广受欢迎的 BridgeData 机器人配置,并配备 WidowX 机械臂。未来,希望 AutoEval 场景能够跨机构建立,从而形成一个多样化的分布式评估网络。

机器人基础模型有望彻底改变机器人学习的“工作流程”:这些模型不再针对单个任务或环境训练策略,而是在一系列场景、任务和机器人实例中进行训练[13,12,60,36,68,69,21,11,31],从而提供能够在新环境中解决新任务的通才策略。这种向通才训练的转变,必然要求这些策略的评估方式也发生类似的转变。传统的单任务策略评估通常涉及几十次手动可完成的策略部署,而机器人基础模型可能需要在各种任务和场景中进行数百次策略部署,才能准确评估其通才能力。例如,对最近推出的 OpenVLA 模型 [36] 与其基线进行全面评估,需要在四个机器人设置和三个机构中进行 2500 多次策略部署,并且总共需要超过 100 小时的人工来重置场景、部署策略和记录成功率。在模型开发和设计改进过程中进行的评估可能会使这项工作复杂化数倍。

通才机器人策略。近期,在大规模机器人数据集 [16, 77, 35, 68] 的推动下,机器人基础模型取得了重大进展 [13, 36, 60, 34, 24, 9, 50, 3, 69, 81, 11, 63]。这些模型经过训练,可以执行各种任务(例如,取放、折叠衣物)[77, 36, 11, 63],适应具有不同背景和干扰因素的各种场景 [87, 25],并控制多个机器人实例(例如,四足动物、机械臂、无人机)[80, 21]。随着这些通才机器人策略能力的提升,评估变得越来越耗时,因为衡量模型性能需要评估各种不同的技能和场景。例如,Kim [36] 的报告结果需要数千次评估试验和超过 100 小时的人工劳动。开发过程中所需的评估试验可能使这个数字增加数倍。这使得通才机器人策略的开发和全面评估变得越来越具有挑战性,需要一种更具可扩展性的评估方法。

自主机器人操作。先前的多项研究已将人类监督的需求视为机器人学习的一个关键限制因素 [87, 2, 34, 65, 15, 40]。虽然这些研究通常侧重于自主策略改进而非自主策略评估,但它们在机器人重置和成功检测方面面临着许多共同的挑战。因此,用于学习重置策略和成功检测器的许多技术,都受到自主机器人学习领域先前研究的启发,甚至一些指标也是共享的,例如测量人为干预的频率 [6]。虽然大多数机器人学习研究人员都意识到评估的成本,但现有的自动化真实机器人评估的努力,仅限于特定于任务的解决方案,这些解决方案通常涉及环境监测,例如使用弹簧驱动或脚本化的重置机制 [57, 19, 34]。

先前的研究试图通过构建逼真的模拟环境来解决这一评估瓶颈 [46],但模拟环境与现实世界之间的差距可能导致结果不可靠,而且许多任务(如布料或液体操作)都难以以足够的保真度进行模拟。这项工作的目标是开发一个机器人策略评估系统,该系统将现实世界评估的可靠性与评估通才机器人策略所需的可扩展性相结合。现实世界机器人评估可扩展性的一个关键瓶颈,是人类操作员进行评估、重置场景和评估策略成功所需的时间。如果能够将所需的人工参与降至最低,可以通过全天候运行评估来大幅提高真实机器人评估的吞吐量。

为此,本文提出 AutoEval,一个用于设计自主真实机器人评估的系统(如图所示)。要使用 AutoEval,人类用户需要将策略排队等待评估,随后 AutoEval 系统会在极少的人工干预下进行评估。该系统会自动运行策略、评估结果、重置场景,并最终向用户返回详细的评估报告。AutoEval 代表一种现实世界机器人评估的新范式,由于对人工干预的依赖程度极低,吞吐量更高,每次评估的试验次数越多,方差就越小。

请添加图片描述

设计一个有效的系统来自主评估真实机器人操作策略面临多重挑战,例如需要自主重置场景和成功检测。本文工作利用大型预训练模型来学习自动重置策略和成功检测器。重要的是,会根据评估场景和任务调整这些模型,以实现高可靠性并最大限度地减少人工干预。其提出一种构建自动化机器人评估的通用方案,并在流行的 BridgeV2 机器人评估环境中将其实例化用于常见任务 [77]。

考虑的策略评估问题设置相当简单:给定一个机器人策略 𝜋(𝑎|𝑜, 𝑙),该策略在给定观测 𝑜 和语言指令 𝑙 的情况下输出动作,以及一个任务定义 𝑇 ∶ S → {0, 1},该任务定义将状态映射到任务成功,感兴趣的是估计机器人策略 𝜋 成功完成任务 𝑇 的概率。

策略评估的输出是一个从 0 到 1 的评估分数,表示成功概率。在机器人评估期间,通常要求策略多次执行相同的任务,同时对机器人和环境的初始状态应用随机化,以便在初始状态分布 𝜌(𝑠) 下对策略的性能进行统计上显著的估计。

传统上,人类评估员需要在整个评估过程中在场,监督机器人,在试验之间将场景重置到新的初始位置,并对策略的性能进行评分。每次试验可能只需几分钟,但对于需要在多个任务和试验中进行评估的通才策略,对单个检查点进行全面评估可能很快就会花费数天时间。

用于自主策略评估的 AutoEval 系统,旨在最大限度地减少机器人评估所需的人工时间。在如下算法 1 中概述了 AutoEval 系统。其核心遵循与传统的人工评估相同的结构,运行多个试验,并间歇性地重置和性能评分。然而,AutoEval 引入多个学习模块,可以自动执行通常需要人类评估员完成的任务。 AutoEval 由三个关键模块组成:(1) 成功分类器,用于评估策略在给定任务上的成功程度;(2) 重置策略,用于在试验完成后将场景从初始状态分布重置回某个状态;(3) 程序化安全措施和故障检测,用于防止机器人损坏并在必要时请求人工干预。这三个组件均通过灵活的学习模型实现,因此可以轻松适应各种机器人任务的自动化评估。

成功分类器。成功分类器 C_T ∶ S → {0, 1} 用于近似真实任务成功值 𝑇 ∶ S → {0, 1},将图像状态映射到二值成功标签。 AutoEval 并不像前人工作 [27, 57] 中那样手工制定特定任务的成功规则,而是训练一个学习的成功分类器 C_T,这个方法可以轻松应用于各种机器人任务。具体来说,收集一小组成功和失败状态的示例图像。使用大约 1000 张图像,通过遥操作机器人并将帧保存在轨迹中,收集这些图像只需不到 10 分钟。然后,对预训练的视觉语言模型 (VLM) 进行微调,以完成二进制成功检测任务。给定一个语言提示,例如“抽屉打开了吗?回答是或否”,以及一个图像观察结果,该模型经过训练可以预测任务是否成功完成。使用预训练的 VLM 来获得一个对环境的小扰动具有鲁棒性的分类器,无需收集大量示例图像进行微调。在实践中,使用 Paligemma VLM [8] 来训练成功分类器,但许多其他开源 VLM 也适用。

重置策略。重置策略 𝜋_𝑇 (𝑎|𝑠) “撤销”了评估策略 𝜋 在评估部署过程中执行的操作,将场景和机器人恢复到初始状态分布 𝜌(𝑠) 的状态。同样,AutoEval 的目标并非依赖于弹簧或磁铁等特定于任务的“硬件重置”,而是设计一个能够灵活应用于各种机器人任务的系统。因此,使用学习的策略来重置场景。脚本化的重置策略,也可用于一些结构更复杂的任务,但学习的策略提供了一种更通用的方法,可应用于各种任务。为了学习重置策略,手动收集一小组约 100 条高质量的演示轨迹,这些轨迹根据策略部署成功和失败的合理最终状态重置场景。实际上,此类数据收集通常只需不到两个小时。然后,利用行为克隆对通才机器人策略进行微调,将其作为重置策略。从通才策略检查点开始可确保重置策略更加稳健,并且只需更少的重置演示即可获得可靠的重置。

安全检测器。虽然成功检测器和重置策略在理论上可以实现自主评估,但在实践中,存在许多问题和极端情况会阻碍评估的自主进行,例如机器人硬件故障、场景或机器人损坏,或者物体超出范围。在 AutoEval 中,采用多种措施来预防或妥善处理此类问题。首先,实施机器人受限的安全工作空间边界,因此性能较差的策略不会损坏机器人或 AutoEval 场景。其次,通过程序检查机器人的电机状态,并在电机发生故障(例如由于机器人与环境发生碰撞)时重新启动电机。还训练一个“重置成功分类器”,类似于上面的成功分类器,它可以识别重置是否成功,否则重新运行重置策略。在这两种情况下,如果多次重启或重置失败(例如由于目标从工作区掉落),会实现一个自动通知系统,请求“随叫随到”的人工操作员进行人工干预。实践中表明,对于实现的 AutoEval 单元来说,此类人工干预非常罕见(每 24 小时自主评估仅需 3 次干预)。

设置时间。总体而言,为新任务构建 AutoEval 单元只需 1-3 小时的人工操作,总计不到 5 小时,包括成功分类器的模型训练时间和重置策略。相比之下,即使在单个典型研究项目中,人工评估时间也可以节省数十小时。

这是一个基于 BridgeData V2 数据集 [77, 23] 的自动评估系统实例,该系统适用于多种环境和任务。BridgeData 是一个多样化的操作数据集,包含 60+ 个使用 WidowX 6DoF 机械臂的操作演示,涵盖 13 种不同的技能和 24 种环境。OpenVLA [36]、RT2-X [13]、CrossFormer [21] 和 Pi0 [11, 63] 等最先进的通才操作策略均在 BridgeData 或其超集 [16] 上进行训练,因此,在此设置上进行的策略评估是通才策略可扩展评估方法的天然试验台。

与 Walke [77] 的研究类似,该 Bridge-AutoEval 装置使用配备第三人称 Logitech C920 HD RGB 摄像头的 WidowX 250 6 自由度机械臂来捕捉机器人工作空间自上而下的 256×256 图像,如图所示。使用带有阻塞控制的末端执行器增量动作。

请添加图片描述

如图所示,构建三个可以并行评估策略的 Bridge-AutoEval 单元,称为抽屉场景、水槽场景和布料场景。在每个机器人站上方使用铝制三脚架灯保持恒定照明。每个场景支持对一到两个操作任务进行评估:抽屉支持评估“打开抽屉”和“关闭抽屉”;水槽支持评估取放任务“将茄子放入蓝色水槽”和“将茄子放入黄色篮子”;布料支持可变形体操作任务“将布料从右上向左下折叠”。虽然 BridgeData 数据集中没有完全相同的场景,但所有场景都包含在 BridgeData 所包含的任务分布中,并且已在先前的研究中用于评估通才策略 [36, 87, 84, 10]。之所以选择这些任务,是因为它们代表不同类型的操作任务:拾取和放置、铰接体操作和可变形体操作。

请添加图片描述

对于每个场景,按照前面提到的步骤训练成功分类器并重置策略。还为 WidowX 机器人实现了安全检测器,以及一个自动消息传递系统,该系统通过以编程方式向 Slack 频道发送推送通知来请求人工干预,该频道有“随叫随到”的操作员,用于给定的评估班次。

本文工作将两个 Bridge-AutoEval 单元公开,以便其他研究人员可以安排对其策略的评估。随着时间的推移,这将有助于提高机器人评估的可重复性和可比性。为了实现这一目标,提供一个公共的 Web UI,用于访问 Bridge-AutoEval 单元并监控评估进度,如图所示。用户可以选择要执行评估的任务,并提供“策略服务器”的 IP 地址,该服务器负责执行他们想要评估的策略。根据图像观测值和任务指令,服务器将运行该策略并返回一系列 7D 动作供 WidowX 机器人执行(提供在服务器界面中包装用户策略的示例代码)。

请添加图片描述

Bridge-AutoEval 系统会自动将待评估的作业排队,并在执行策略评估时向策略服务器查询机器人操作。AutoEval 系统可以全天候运行,并按照提交的顺序执行所有用户的评估作业。在策略评估结束时,AutoEval 会向用户提供可下载的部署数据和自主评估的详细性能报告,其中包含部署视频、成功率、事件持续时间以及电机重置或所需人为干预的频率。如图展示了示例报告的一部分,AutoEval 完成后即可立即在线访问。

请添加图片描述

实验细节。

任务。基于五项 Bridge V2 [77] 评估任务来评估策略:打开和关闭抽屉、将塑料茄子放入水槽和篮子中以及折叠布料。所有任务均使用 WidowX 6 自由度机械臂执行。在人工评估中,当抽屉完全关闭或打开至少 1.5 厘米时,如果茄子在回合结束时完全放入水槽或篮子中,以及布料折叠至对角线方向至少四分之一处,则视为成功。会在每回合开始时随机化茄子、抽屉和布料的初始位置。

策略。使用机器人社区最近发布的六种通才机器人策略进行评估:OpenVLA [36],一个在 Open X-Embodiment 数据集 [16] 上预训练的 7B 参数视觉-语言-动作模型 (VLA);Octo [72],一个 27M 参数的变换策略,也是在 Open X-Embodiment 上预训练的;Open 𝝅𝟎 [67],一个 3B 参数 𝜋0 VLA [11] 的开源复制品(在撰写本文时,原始𝜋0 尚未开源),在 Bridge V2 数据集上预训练的;MiniVLA [7],一个在 Bridge V2 数据集 [77] 上预训练的 3B 参数 VLA;SuSIE [10],一个将图像扩散子目标预测器与小型扩散低级策略相结合的分层策略,在 Bridge V2 上预训练的; SuSIE-LL 直接执行 SuSIE 中的目标条件行为克隆低级策略。这组策略是当前最先进的通才策略代表性样本。所有策略都包含 Bridge V2 数据集作为其训练数据的一部分,并且评估所有模型公开发布的检查点。

比较。比较多种可扩展的通才策略评估方法。具体而言,将方法 AutoEval 与先前关于机器人操作策略模拟评估的研究 SIMPLER [46] 进行比较。SIMPLER 构建真实世界环境的逼真模拟版本,并纯粹在模拟中评估策略。在本文实验中,将现有的 SIMPLER 环境重用于 Bridge 接收器环境,并按照 Li [46] 的分步指南为抽屉场景(图 6)构建了一个新的 SIMPLER 模拟环境。可变形体(例如布料场景中的布料)通常难以模拟[28, 48],而且在编写 SIMPLER 模拟器 Maniskill [56] 时,它不支持模拟可变形体,因此没有在模拟中评估布料场景。此外,与使用验证集上的均方误差(“val-MSE”)进行比较,将其作为一种可扩展的机器人策略离线评估方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM框架的房屋租赁小程序开发与实现

概述 一个基于SSM框架开发的微信小程序房屋租赁管理系统,该项目实现了用户管理、中介管理、房源信息管理等核心功能。 主要内容 一、管理员模块功能实现 ​​用户管理​​ 管理员可对通过微信小程序注册的用户信息进行修改和删除操作,确保用户数据的准…

oracle 表空间(Tablespace)

在 Oracle 11g 中,表空间(Tablespace) 是数据库存储架构的核心逻辑单元,其原理基于 逻辑存储与物理存储的分离,通过分层管理数据文件、段(Segment)、区(Extent)和数据块&…

基于YOLOv8的机场跑道异物检测识别系统:提升航空安全的新一代解决方案(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 1. 机场跑道异物检测领域概述 机场跑道异物(Foreign Object Debris, FOD)是指存在于机场跑道、滑行道等关…

Android学习总结之OKHttp拦截器和缓存

深入理解 OkHttp 拦截器 1. 拦截器接口详解 Interceptor 接口是自定义拦截器的基础,它仅包含一个抽象方法 intercept。以下是对该方法参数和返回值的详细解释: import okhttp3.Interceptor; import okhttp3.Request; import okhttp3.Response; import…

Wincc管对象的使用

Wincc管对象的使用 管对象的调用多边形管T形管双T形管管弯头管道大小调整 管对象的调用 打开【图形编辑器】 多边形管 多边形管如下: 一根管子的顶点数是两个,如果修改顶点数,管子就有多少个端点。 修改顶点数为5 此时点击端点然后拖动&#…

Linux-----驱动

一、内核驱动与启动流程 1. Linux内核驱动 Nor Flash: 可线性访问,有专门的数据及地址总线(与内存访问方式相同)。 Nand Flash: 不可线性访问,访问需要控制逻辑(软件)。 2. Linux启动流程 ARM架构: IRAM…

问问lua怎么写DeepSeek,,,,,

很坦白说,这十年,我几乎没办法从互联网找到这个这样的代码,互联网引擎找不到,我也没有很大的“追求”要传承,或者要宣传什么;直到DeepSeek的出现 兄弟,Deepseek现在已经比你更了解你楼下的超市…

基于神经环路的神经调控可增强遗忘型轻度认知障碍患者的延迟回忆能力

简要总结 这篇文章提出了一种名为CcSi-MHAHGEL的框架,用于基于多站点、多图谱fMRI的功能连接网络(FCN)分析,以辅助自闭症谱系障碍(ASD)的识别。该框架通过多视图超边感知的超图嵌入学习方法,整合…

C++学习之ORACLE③

1.集合运算符 查询部门号是10和20的员工信息: ?思考有几种方式解决该问题 ? SQL> select * from emp where deptno in(10, 20) SQL> select * from emp where deptno10 or deptno20 集合运算: Select * from emp …

UniAD:自动驾驶的统一架构 - 创新与挑战并存

引言 自动驾驶技术正经历一场架构革命。传统上,自动驾驶系统采用模块化设计,将感知、预测和规划分离为独立组件。而上海人工智能实验室的OpenDriveLab团队提出的UniAD(Unified Autonomous Driving)则尝试将这些任务整合到一个统一…

transformers 中的 input_ids 和 labels 是什么

transformers 中的 input_ids 和 labels 是什么 input_ids 是输入文本的数字化表示,而 labels 是模型训练的目标值 在自然语言处理(NLP)和使用 transformers 库进行模型训练时,tokenizer = AutoTokenizer.from_pretrained(model_path) 这行代码是用于从预训练模型路径加载…

各种排序思路及实现

目录 1.排序概念常见的排序算法 2.常见排序算法实现(1)插入排序直接插入排序希尔排序(缩小增量排序) (2)选择排序直接选择排序堆排序 (3)交换排序冒泡排序快速排序(hoare…

golang 采用use-go/onvif获取RTSP流

采用https://github.com/use-go/onvif得到完整的RTSP流的地址 全局变量UseGoMain 函数GetDeviceInformation 函数GetRTSPUri 函数 全局变量 这些变量用来设定 ONVIF 设备的连接信息,包含设备地址、用户名和密码 var deviceXaddr "*92.1*8.11*.12*:80" …

【北京市小客车调控网站-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

西湖大学团队开源SaProt等多款蛋白质语言模型,覆盖结构功能预测/跨模态信息搜索/氨基酸序列设计等

2025 年 3 月 22—23 日,上海交通大学「AI 蛋白质设计峰会」正式举行。 本次峰会汇聚了来自清华大学、北京大学、复旦大学、浙江大学、厦门大学等知名高校的 300 多位专家学者,以及 200 余位行业领军企业代表和技术研发人员,深入探讨了 AI 在…

一个批量文件Dos2Unix程序(Microsoft Store,开源)

这个程序可以把整个目录的文本文件改成UNIX格式,源码是用C#写的。 目录 一、从Microsoft Store安装 二、从github获取源码 三、功能介绍 3.1 运行 3.2 浏览 3.3 转换 3.4 转换(无列表) 3.5 取消 3.6 帮助 四、源码解读 五、讨论和…

无法读取库伦值文件节点解决方案

读取库伦值的目的是为了换算成电流,量化场景功耗用途 1.报错日志 /power_log/debuglogger$ adb shell dmesg | grep -Ei "avc..system_server"[ 79.942272] logd.auditd: type1400 audit(1744279324.832:7149): avc: denied { read } for comm"…

Linux系统学习Day2——在Linux系统中开发OpenCV

一、OpenCV简介 OpenCV(Open Source Computer Vision Library)是一个开源的跨平台计算机视觉和机器学习库,广泛应用于图像处理、视频分析、物体检测等领域。它提供了丰富的算法和高效的工具集,支持C、Python等多种语言&#xff0c…

【图像分类】【深度学习】图像分类评价指标

【图像分类】【深度学习】图像分类评价指标 文章目录 【图像分类】【深度学习】图像分类评价指标前言二分类评价指标Accuracy(准确率/精度)Precision(精确率/查准率)Recall(召回率/查全率)F1-ScoreAUC-ROC曲线(Area Under the Curv-Receiver Operating Characteristic Curve)二…

蓝桥杯单片机刷题——按键控制距离显示精度

设计要求 驱动超声波传感器,启动距离测量功能,并将其结果显示到数码管上,距离数据单位为m。 按键“S4”定义为“切换”按键,通过此按键切换距离的显示精度(一位或两位小数)。切换顺序如图所示。 数码管显示格式如下图…