EgoScale：利用多样化的自我为中心人类数据来扩展灵巧操作

news2026/3/18 16:41:28

26年2月来自NV、UC Berkeley和U Maryland的论文“EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data”。人类行为是学习物理智能最具可扩展性的数据来源之一但如何有效地利用这些数据进行灵巧操作训练仍不明确。虽然以往的研究已在受限环境下展示人机迁移但大规模人类数据是否能够支持细粒度、高自由度的灵巧操作训练尚不清楚。EgoScale是一个基于大规模自我为中心人类数据构建的人-机灵巧操作迁移框架。用超过 20,854 小时动作标注的自我为中心人类视频训练一个视觉-语言-动作 (VLA) 模型——比以往的研究规模大 20 倍以上——并发现人类数据规模与验证损失之间的对数线性关系。该验证损失与下游真实机器人的性能高度相关表明大规模人类数据是一个可预测的监督来源。除了规模之外还提出一种简单的两-阶段迁移方法首先进行大规模人类预训练然后进行轻量级的人-机协同训练。这使得机器人能够在极少监督下实现强大的长距离灵巧操作和一次性任务适应。最终的策略在使用22-自由度灵巧机械手时相比无预训练基线平均成功率提高54%并且能够有效地迁移到自由度较低的机械手上这表明大规模的人体运动提供一种可重用的、与具体形态无关的运动先验。随着机器人硬件不断改进朝着更接近人类的运动学和灵巧性方向发展一个自然而然的问题随之而来人类数据能否作为灵巧机器人操作的主要训练信号近期研究表明通过协调不同载体上的观察或动作可以将人类数据迁移到机器人[12, 42, 25, 24, 30]。然而现有成果在两个方面仍存在局限性。首先大多数方法依赖于相对较小的人类数据集通常只有几十到几百个小时。其次许多方法侧重于机械臂或低自由度的手部而这些设备缺乏精细的手指关节活动。因此人类数据能否有效地支持大规模的复杂灵巧操作仍不明确。基于人类数据的机器人学习人类演示已被广泛用于扩展机器人学习早期研究主要利用人类视频进行表征学习或意图推断[17, 36, 15, 14, 45]。后续方法利用人类数据指导规划或高层控制同时依赖机器人演示进行底层执行[34, 43, 44, 18, 38, 39]。更新的方法利用以自我为中心的感知和3D手部跟踪技术的进步将人类视频视为密集动作监督。EgoMimic[12]、Qiu[25]和DexWild[30]通过显式对齐在人类和机器人演示上共同训练统一的模仿策略而EgoVLA[42]则在人类手部运动上预训练VLA模型并通过逆运动学和重定向将其迁移到机器人。同期研究[13]表明在基于大规模多样化跨具身数据预训练的VLA模型能够实现人机迁移。机器人学习中的规模化特性受语言和视觉领域中观察的规模化规律启发近期的研究开始探索类似的原则是否也适用于机器人学习。经验表明大规模机器人数据集和基础型策略表明增加数据多样性和覆盖范围能够提高跨任务和环境的鲁棒性和泛化能力[11, 46, 20, 33, 31, 4]。Hu[9]的研究表明策略泛化能力与环境和物体多样性呈近似幂律关系但进一步的演示很快达到饱和这凸显多样性比原始数据量更为重要。这与先前强调通过组合多样性进行高效数据收集的研究结果一致[7, 37]。与先前主要扩展机器人采集数据的研究相比扩展多样化的自然场景下人类自我为中心的数据能够系统性地提升灵巧操作能力从而将人类视频确立为一种高效且可扩展的监督数据源。学习灵巧操作灵巧操作技术已从基于分析和控制的抓取方法这些方法模拟力闭合、接触稳定性以及手部运动学[21, 22, 26, 27, 23, 6]发展到基于学习的方法这些方法从数据中获取丰富的接触行为[1, 16, 40]。后续研究引入了结构化表示例如抓取affordance、接触图和手-物体交互场以更好地捕捉灵巧操作的几何和物理特性[3, 5, 10, 41, 32]。更新的方法旨在学习具有统一感知和控制的可泛化多指操作策略[28, 35]。然而由于高维动作空间、机器人数据采集成本以及当前灵巧手硬件的局限性扩展灵巧操作仍然面临挑战。EgoScale框架人-机灵巧操作迁移本质上是一个规模效应现象EgoScale是一个基于大规模自我为中心人类数据构建的可扩展人机灵巧操作迁移框架其揭示了一个清晰的规模规律人类手腕和手部动作预测的验证损失与数据量呈对数线性关系。这使我们能够推断随着人类数据规模的扩大验证损失持续降低学习的表征泛化能力也越来越强。至关重要的是该损失与机器人在长时程、复杂操作任务上的真实性能高度相关。除了规模效应之外用以相对腕部运动和重定向的高自由度手部关节动作表示的人类操作行为监督模型这种对齐的动作空间促使模型提取直接用于操作的信息而不是学习与任务无关的视觉特征。预训练之后通过协同训练引入少量对齐的人-机中期训练数据。这些中期训练数据包括在匹配的桌面场景中执行类似操作任务的人类和机器人这些场景具有相似的视觉视角。这种对齐为将预训练表征与机器人的感知和控制空间联系起来提供监督。本文目标是从大规模以人类为中心的视频中学习可直接用于灵巧机器人控制的表征。这一设定面临两大核心挑战。首先人类演示数据噪声较大且缺乏相应的机器人动作。其次人类和机器人在运动学和控制界面方面存在显著差异。本文方法如图所示通过两项设计选择来应对这些挑战。首先用从以人类为中心的视频中提取的腕部运动和手部关节的显式监督数据对人类数据进行预训练迫使模型学习基于物理实际的动作表征。然后在训练中期引入少量对齐的人机数据这使得这些表征能够应用于可执行的机器人控制而无需大规模的配对演示。这种两阶段设计将数据规模与人体模型对齐解耦从而能够有效地将大型人类数据集迁移到灵巧机器人操作。人类动作表征原始传感器数据流。每个人体演示都包含从头戴式摄像头捕获以自我为中心的RGB观测数据以及从现成的感知流程中获得的估计摄像头运动和人手姿态。将这些原始传感器信号转换为统一的动作表示适用于大规模预训练和下游机器人执行。令F_表示世界坐标系Ft_表示时间的摄像头坐标系。估计的摄像头姿态表示为T_←。人手姿态由21个关键点建模每个关键点在摄像头坐标系中表示为刚体变换H_,其中 1对应于手腕。世界坐标系中的手腕姿态由Wt_ T_←H_,1给出。腕部手臂运动。为了获得不受全局相机运动影响的运动指令用连续时间步之间的相对腕部运动来表示手臂运动。给定动作块中的时间步 t∆Wt (W0_)−1Wt_。这种相对末端执行器公式消除对绝对相机位姿的依赖并以物理意义明确的方式捕捉局部手臂运动。相同的表示方法在人类演示和机器人执行中共享作为跨具身学习的主要手臂级动作抽象。手部关节。对于手指级控制用基于优化的程序将 21 个人类手部关键点重映射到灵巧机器人手部关节空间该程序强制执行关节限制和运动学约束。默认选择 Sharpa hand [29] 的 22 自由度手部动作空间该空间在预训练期间保留人类手指的关节活动性同时与目标机器人的控制界面保持一致。尽管这种表示方法是使用高自由度的手部模型定义的但学习的模型可以有效地迁移到低自由度手部模型。人类数据来源和处理第一阶段大规模以自我为中心的人类预训练数据。用包含总计 20,854 小时视频大规模以自我为中心的人类活动数据集对模型进行预训练。其中大部分是来自各种真实世界环境例如家庭、工业、零售和教育场所的自然场景以自我为中心的录像涵盖 9,869 个场景、6,015 个任务和 43,237 个物体并提供对长尾long-tailed操作行为的广泛覆盖。所有录像均使用以自我为中心 RGB 相机以 30 帧/秒的帧率拍摄。用现成的 SLAM 和手部姿态估计流程来恢复相机运动和人手轨迹。尽管由于数据采集不受限制这些估计值存在噪声但数据的规模和多样性为学习可迁移的动作表征提供有效的监督随着数据量的增加下游性能将持续提升。为了补充这种大规模但噪声较大的监督还整合 829 小时的 EgoDex 数据集 [8]该数据集使用 Apple Vision Pro 采集并具备精确的手腕和手部追踪功能。EgoDex 涵盖 194 个涉及日常物品的桌面操作任务并提供更高精度的运动学信号有助于锚定预训练同时保持可扩展性。第二阶段人机对齐的中期训练数据。为了进一步弥合人类演示和机器人执行之间的具身认知差距引入一个包含人类和远程操作机器人数据的较小数据集。该数据集对于将预训练表征锚定到机器人的感知和动作空间至关重要。该数据集包含 344 个桌面操作任务每个任务均由约 30 条人类轨迹和 5 条机器人轨迹记录总计约 50 小时的人类数据和 4 小时的机器人数据。如图 a 所示人类演示数据与机器人演示数据采用相同的相机配置视角匹配且内部参数经过校准确保不同领域之间的视觉观察结果具有直接可比性。人手运动的捕捉采用与机器人远程操作相同的运动捕捉技术Vive 追踪器提供腕部姿态3D 位置和方向而 Manus 手套则记录完整的手部姿态包括 25 个关节变换。所有运动信号均与视频流同步。与第一阶段使用的大规模但无约束的数据相比该数据集规模显著较小但明确地与人体本体进行对齐。它专注于与机器人工作空间和运动学相匹配的桌面任务使得预训练期间学习的抽象人类动作能够转化为可执行的机器人控制。第一阶段和第二阶段共同实现规模和对齐的解耦第一阶段提供多样性和语义基础而第二阶段则为后续部署提供精确的人机对应关系。模型架构如上图 b 所示模型采用类似于 GR00T N1 [19] 基于流的 VLA 架构。在每个时间步 t模型以观测值 o_t (I_t, L_t) 为条件该观测值包含一幅图像和一条语言指令并被编码为视觉-语言嵌入 Θ_t。然后模型使用流匹配目标函数预测未来动作片段。对于机器人数据模型以机器人本体感觉状态 q_t 为条件而人类演示则不提供此类信号。在缺乏本体感觉的情况下将 q_t 替换为一个可学习的占位符token从而在不改变架构的情况下实现统一的模型构建。为了适应具有不同状态和手部动作空间的多种机器人形态遵循 GR00T N1 [19] 的规范在输入和输出接口处使用轻量级的、基于个体特征的多层感知器MLP适配器。具体而言这些适配器编码特定于身体的本体感觉状态并解码手部动作而相对腕部运动预测、视觉-语言骨干网络和 DiT 动作专家则完全共享。实际上这种机制仅用于少数额外的身体模型例如具有三指手的 G1。训练方案用三阶段训练流程。在第一阶段人类预训练用 256 个 GB200 GPU以 8192 的全局批大小和 5 × 10⁻⁵ 的学习率在 2 万小时自我为中心的人类数据上进行 10 万步训练完全解冻 VLA 模型的每个参数以吸收大规模数据。然后在第二阶段中期训练阶段用已对齐的人-机游戏数据集进行 5 万步训练批大小为 2048学习率为 3 × 10⁻⁵。在此阶段冻结视觉语言骨干网络仅更新视觉编码器和 DiT 动作专家以锚定机器人感知和控制的表征。在第三阶段后训练阶段用特定任务的机器人演示进行 1 万步微调批大小为 512学习率为 3 × 10⁻⁵。在后训练阶段如果用中期训练则冻结视觉编码器否则解冻视觉编码器以便在需要时适应新的实现方式。机器人系统与控制实际实验在配备 22 自由度 Sharpa 灵巧机械手的 Galaxea R1Pro 人形机器人上进行。双臂轮式人形机器人系统 Galaxea R1Pro。固定机器人的底座和躯干专注于双手操作在相对末端执行器空间中控制两个7自由度机械臂其中动作指定位置和方向的增量变化与人类演示中使用的腕部姿态表示相匹配从而实现人机直接对齐。22自由度灵巧手。为机器人配备具有22个自由度和关节空间控制的Sharpa Wave灵巧手其中动作直接指定目标关节角度从而实现精确的关节运动并保留重定位的人手运动的精细结构。感知系统。用三个RGB摄像头一个头戴式摄像头提供与人类视频一致的自我为中心第一人称视角两个腕部摄像头分别安装在每个手腕的内侧朝向手掌用于捕捉近距离的手部与物体交互并提供精细灵巧操作所必需的详细视觉反馈。实验配置任务。为了评估策略性能设计五个高灵巧性操作任务如图所示。除“卷衬衫”任务外每个任务均提供 100 次远程操控机器人演示。“卷衬衫”是一项可变形操作任务对控制精度要求较低因此仅提供 20 次演示。任务 I衬衫卷衬衫。机器人协调双手交替折叠和卷起一件 T 恤然后将其放入篮子中。任务 II卡片卡片分类。机器人用手指摩擦并从一叠紧密堆叠的卡片中分离出一张卡片然后根据颜色将其精确地插入正确的卡槽中。任务 III钳子灵巧工具使用用钳子搬运水果。机器人首先从工具箱中取出一把钳子然后用它夹起一个水果并将其放置在目标位置。任务 IV瓶子拧开瓶盖。机器人抓取并持续旋转一个小瓶盖将其从瓶子上取下。采集四种不同尺寸瓶子的演示数据每种瓶子采集了25条轨迹。任务五注射器注射器液体转移。这是最具挑战性的任务要求机器人拿起注射器从 A 管抽取液体将其注入 B 管然后将注射器丢弃到垃圾桶中。该任务涉及长时程、多步骤推理、精确的液体抽取和注入空间对准以及灵巧地操作注射器活塞。评估指标。为了评估策略性能用两个随机训练种子训练每种方法。然后对于每个训练好的策略检查点进行 10 次试验以评估性能但任务III除外该任务中对四个瓶子实例分别进行 4 次试验共计 16 次评估试验。为了确保评估运行的一致性采用基于图像叠加的初始化程序其中机器人评估器会获得目标初始场景配置的视觉叠加层以减少初始条件的变化。对于每个任务记录绝对任务成功率和细粒度的任务完成分数。如图所示Galaxea R1 Pro 和 Unitree G1 平台上的机器人系统配置可视化图。Galaxea R1 Pro 配备 22 自由度 Sharpa 灵巧机械手而 Unitree G1 则配备 7 自由度三指机械手。两款机器人均配备两台用于腕部观察的 OAK-1-Wide 摄像头和一台用于提供以自我为中心的视觉观测的 OAK-D-Wide 头戴式摄像头。重定向方法本文用逐帧优化的方法将21个人类手部关键点每只手25个关键点分别表示3D位置和方向重新映射到Sharpa Hand [29]的22自由度关节空间中。机器人手部采用基于URDF的正向运动学模型将关节角度映射到20个机器人关键点位姿位置和四元数。对于每只手和每个时间步求解一个关于22个关节角度的非线性规划问题仅受限于URDF提供的关节限制并最小化不同目标的加权组合。该优化过程在CasADi中实现并使用IPOPT算法求解该算法从前一帧的解进行热启动。最后使用一阶指数滤波器对得到的关节角度进行平滑处理以减少时间抖动。该设计在保持手指关节活动和捏握/握拳语义的同时强制执行关节限制和运动学一致性并产生用于预训练和与目标机器人交互的 22 自由度动作空间。跨平台迁移至宇树 G1Unitree G1 机器人在运动学和手部驱动方面与 Galaxea R1 Pro 平台存在显著差异。共享腕部动作。在所有实施例中用 (3) 中的相对末端执行器姿态来表示手臂运动该姿态由帧间腕部变换定义。这种表示方法在人类演示和机器人执行之间共享并且不受绝对工作空间、相机位置和手臂运动学差异的影响。手部动作适配。人类预训练是在一个 22 自由度的灵巧手部关节空间中进行的该空间是通过重定向的人类手部运动获得的。为了支持具有不同形态的机器人例如配备7自由度三指手的Unitree G1借鉴GR00T-N1和N1.5 [19] 的设计在DiT动作模块的输入和输出接口处引入轻量级的、基于形态的MLP适配器。具体而言形态特定的编码器将机器人本体感觉状态和带噪声的动作输入映射到共享的潜动作空间而形态特定的解码器则将DiT输出映射回相应的关节动作空间。视觉语言骨干网络和DiT动作专家模型在所有形态之间完全共享。形态特定的中期训练。为了将人类预训练的表征与G1控制空间相匹配在对齐的中期训练阶段加入G1机器人的实验数据。在此阶段仅更新视觉编码器、DiT动作专家模型以及状态-动作编码器和解码器而视觉语言骨干网络保持冻结状态。这种设计使得模型能够在适应 G1 的感知和驱动接口的同时保留源自人类的操作结构。讨论。重要的是G1 并非从零开始训练。相反训练过程中会将已学习的、源自人类的操作表征与新的实体模型进行匹配。这种方法比仅直接使用 G1 数据进行训练的性能显著提高这表明大规模的人类预训练提供一种可重用且与实体模型无关的运动先验可以有效地应用于具有不同运动学和手部设计的机器人。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2423485.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！