论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)

news2025/6/12 20:05:19

宇树机器人多姿态起立控制强化学习框架论文解析

论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)

论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)
论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(三)

《Learning Humanoid Standing-up Control across Diverse Postures》

论文来源: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学
发布时间: 2025年2月(第一版),2025年4月(第二版)
实际部署: Unitree G1人形机器人


📋 目录

  • 一、论文概况
  • 二、技术方法详解
  • 三、核心创新点
  • 四、实验结果与评估
  • 五、技术影响与展望

一、论文概况

1.1 研究背景与挑战

核心问题: 人形机器人从倒地姿态站起来的能力(起立控制)对实现跌倒恢复等功能至关重要。

现有方法的局限性:

方法类型优势局限性
传统轨迹跟踪动作合理,在仿真中有效依赖手工设计,对扰动敏感,部署困难
强化学习方法灵活性高,建模假设少动作剧烈不稳定,真实部署困难

1.2 HoST框架概述

HoST(Humanoid Standing-up Control) 是一个从零开始训练的强化学习框架,具备以下核心特点:

🎯 主要特点:

  • 多评论架构 + 课程式训练 → 提升适应性
  • 动作平滑正则化 + 隐式速度限制 → 抑制抖动
  • 零微调部署 → 直接在Unitree G1上运行
  • 多场景验证 → 室内外环境均表现稳定

1.3 技术创新亮点

创新点技术方案效果
多姿态适应多地形训练 + 向上牵引力支持多种初始姿态起立
训练稳定性多评论强化学习架构优化不同奖励维度
动作平滑性正则化 + 速度约束减少剧烈动作
sim-to-real领域随机化技术提升迁移能力

二、技术方法详解

2.1 问题建模:马尔可夫决策过程(MDP)

2.1.1 MDP五元组定义

人形机器人起立任务被建模为有限时长的MDP:

M = ⟨S, A, T, R, γ⟩
元素含义具体内容
S状态空间机器人本体感知信息
A动作空间关节目标位置变化量
T状态转移函数物理仿真引擎
R奖励函数多维度奖励设计
γ折扣因子长期奖励权衡
2.1.2 训练目标

最优策略学习:

π* = argmax E_πθ[∑γᵗ·rₜ]

算法选择: PPO(Proximal Policy Optimization)

  • ✅ 大规模并行训练稳定性好
  • ✅ 基于宇树官方框架:unitree_rl_gym/legged_gym + RSL-RL/PPO

2.2 观察空间设计

2.2.1 本体感知信息

状态向量构成:

观察项符号来源维度
机体角速度ωₜIMU传感器3D
姿态角度rₜ, qₜIMU(roll, pitch)2D
关节位置pₜ编码器23D
关节速度ṗₜ编码器23D
上步动作aₜ₋₁历史记录23D
缩放系数β配置参数1D
2.2.2 时间上下文增强

历史状态融合:

  • 📊 引入过去5个时间步的状态信息
  • 🎯 增强接触感知能力(如判断是否触地)
  • 💡 提供更强的时间上下文信息

技术实现: class LeggedRobot(BaseTask).compute_observations()

2.3 动作空间与控制

2.3.1 PD控制器架构

设计理念: 强化学习专注于"决策去哪里",PD控制器负责"如何安全地到达"

强化学习策略
动作输出 aₜ
目标位置计算
PD控制器
关节扭矩 τₜ
机器人执行
2.3.2 控制流程

1. 目标位置计算:

pᵈₜ = pₜ + β·aₜ

2. PD控制律:

τₜ = Kp(pᵈₜ - pₜ) - Kd·ṗₜ

3. 参数说明:

  • Kp, Kd: PD控制器增益参数
  • β ∈ (0, 1]: 动作缩放因子(隐式速度限制)
  • 维度: 23个自由度对应23维动作空间
2.3.3 PD控制器优势
优势说明
安全性避免直接扭矩输出,减少硬件损坏风险
稳定性物理直觉的控制行为,天然稳定特性
可调性仅需调节Kp、Kd两个参数
迁移性仿真与真实机器人行为一致性高

三、核心创新点

3.1 多评论强化学习架构

技术方案:

  • 🎯 多个评论网络 分别优化不同奖励维度
  • 📈 解耦优化 提升训练稳定性
  • ⚖️ 平衡收敛 避免单一奖励主导

3.2 课程化训练策略

训练阶段设计:

阶段训练内容技术手段
初期基础起立动作向上牵引力辅助
中期多姿态适应多地形随机化
后期鲁棒性提升干扰注入训练

3.3 动作平滑化技术

实现方法:

  1. 动作正则化 - 限制动作幅度
  2. 速度约束 - 通过β因子隐式控制
  3. 连续性保证 - 时间步间动作平滑过渡

3.4 领域随机化

随机化参数:

  • 🌍 物理参数: 质量、摩擦、关节刚度
  • 🎮 环境参数: 地形、重力、风力
  • 🤖 机器人参数: 传感器噪声、执行器延迟

论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2407611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# 类和继承(抽象类)

抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…

从零实现STL哈希容器:unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说&#xff0c;直接开始吧&#xff01; 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结&#xff1a; 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析&#xff1a; 实际业务去理解体会统一注…

2025盘古石杯决赛【手机取证】

前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来&#xff0c;实在找不到&#xff0c;希望有大佬教一下我。 还有就会议时间&#xff0c;我感觉不是图片时间&#xff0c;因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据 案例一 对于查询类API&#xff0c;查询的是单条数据&#xff0c;比如根据主键ID查询用户信息&#xff0c;sql如下&#xff1a; select id, name, age from user where id #{id}API默认返回的数据格式是多条的&#xff0c;如下&#xff1a; {&qu…

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度​WebSocket图片帧​定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐​RTMP推流​TRTC/即构SDK推流❌ 付费方案 &#xff08;部分有免费额度&#x…

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…

Linux-07 ubuntu 的 chrome 启动不了

文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了&#xff0c;报错如下四、启动不了&#xff0c;解决如下 总结 问题原因 在应用中可以看到chrome&#xff0c;但是打不开(说明&#xff1a;原来的ubuntu系统出问题了&#xff0c;这个是备用的硬盘&a…

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章&#xff1f;AI自动生成&#xff0c;效率提升10倍&#xff01; 支持多语言、自动配图、定时发布&#xff0c;让内容创作更轻松&#xff01; AI内容生成 → 不想每天写文章&#xff1f;AI一键生成高质量内容&#xff01;多语言支持 → 跨境电商必备&am…

PL0语法,分析器实现!

简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践

6月5日&#xff0c;2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席&#xff0c;并作《智能体在安全领域的应用实践》主题演讲&#xff0c;分享了在智能体在安全领域的突破性实践。他指出&#xff0c;百度通过将安全能力…

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统&#xff0c;支持多语言对话&#xff08;如 中文&#xff0c;英文&#xff0c;日语&#xff09;&#xff0c;语音情感&#xff08;如 开心&#xff0c;悲伤&#xff09;&#x…

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…

ardupilot 开发环境eclipse 中import 缺少C++

目录 文章目录 目录摘要1.修复过程摘要 本节主要解决ardupilot 开发环境eclipse 中import 缺少C++,无法导入ardupilot代码,会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…

12.找到字符串中所有字母异位词

&#x1f9e0; 题目解析 题目描述&#xff1a; 给定两个字符串 s 和 p&#xff0c;找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义&#xff1a; 若两个字符串包含的字符种类和出现次数完全相同&#xff0c;顺序无所谓&#xff0c;则互为…

MySQL 8.0 OCP 英文题库解析(十三)

Oracle 为庆祝 MySQL 30 周年&#xff0c;截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始&#xff0c;将英文题库免费公布出来&#xff0c;并进行解析&#xff0c;帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…