Isaac-gym(5):关于强化学习

news2025/7/28 3:13:50
  • 官方链接:

https://github.com/NVIDIA-Omniverse/IsaacGymEnvs

1、环境建立示例

import isaacgym
import isaacgymenvs
import torch

envs = isaacgymenvs.make(
	seed=0, 
	task="Ant",     #对应执行时用到的名称
	num_envs=2000, 
	sim_device="cuda:0",
	rl_device="cuda:0",
)
print("Observation space is", envs.observation_space)
print("Action space is", envs.action_space)
obs = envs.reset()
for _ in range(20):
	obs, reward, done, info = envs.step(
		torch.rand((2000,)+envs.action_space.shape, device="cuda:0")
	)

2、运行benchmarks

尝试训练可以终端输入:

python train.py task=Cartpole
python train.py task=Ant

其中train.py位于 ~/IsaacGymEnvs/isaacgymenvs。

默认情况下,会显示一个预览窗口,会降低训练速度。可以在运行时使用v键来禁用查看器更新,并允许训练更快地进行。训练几秒钟后,当效果变好时,再次按下v键恢复观看。
(点击画面,按v后所有对象静止,再按v恢复)

使用esc键或关闭查看器窗口以提前停止训练。

同时,可以选择盲训,在终端中使用Control-C提前停止:

python train.py task=Ant headless=True

train-Ant

3、载入训练的模型/Checkpoints

Checkpoints保存于路径:runs/EXPERIMENT_NAME/nn
其中EXPERIMENT_NAME task name,在envs示例注释中有提到;但也可以通过参数experiment来覆盖。

  • 载入一个Checkpoint并断点续训:
python train.py task=Ant checkpoint=runs/Ant/nn/Ant.pth
  • 导入训练模型且仅体现推断效果(不训练):
python train.py task=Ant checkpoint=runs/Ant/nn/Ant.pth test=True num_envs=64

(num_envs=64 可更改)

  • 如果路径名称中含有“[” 或者 “=” :
checkpoint="./runs/Ant/nn/last_Antep\=501rew\[5981.31\].pth"

4、配置和命令行参数

train.py中的关键参数包括:

  • task=TASK
    选择要训练的任务。包括:AllegroHand, Ant, Anymal, AnymalTerrain, BallBalance, Cartpole, FrankaCabinet, Humanoid, Ingenuity, Quadcopter, ShadowHand, ShadowHandOpenAI_FF, ShadowHandOpenAI_LSTM, and Trifinger
    对应于:isaacgymenvs/config/task中的文件

  • train=TRAIN
    选择要使用的培训配置。将自动默认为环境的正确配置。
    例如:<TASK>PPO

  • num_envs=NUM_ENVS
    选择要使用的环境个数(覆盖任务配置中设置的默认环境数)

  • seed=SEED
    为随机化设置种子值,并覆盖在任务配置中设置的默认种子

  • test=TEST
    如果设置为True,则仅对策略运行推断,不执行任何训练

  • checkpoint=CHECKPOINT_PATH
    设置要加载以进行培训或测试的检查点的路径

  • headless=HEADLESS
    是否选择使用headless模式

  • experiment=EXPERIMENT
    设置实验的名称

  • max_iterations=MAX_ITERATIONS
    设置要运行的迭代次数。为提供的环境提供了合理的默认值。

  • sim_device=SIM_DEVICE_TYPE
    用于物理模拟的设备。设置为cuda:0(默认值)以使用GPU,设置为cpu以使用CPU。遵循类似PyTorch的设备语法。

  • rl_device=RL_DEVICE
    用于RL算法的设备/ID。默认为cuda:0,并遵循类似PyTorch的设备语法。

  • graphics_device_id=GRAPHICS_DEVICE_ID
    用于渲染的Vulkan图形设备ID。默认值为0。注意-这可能与CUDA设备ID不同,并且不遵循类似PyTorch的设备语法。

  • pipeline=PIPELINE
    要使用的API管道。默认为gpu,也可以设置为cpu

允许将配置文件中的变量直接设置为命令行参数。例如,要设置rl_games训练运行的折扣率,可以使用train.prarams.config.gamma=0.999。同样,也可以设置任务配置中的变量。例如,task.env.enableDebugVis=True

配置的任务和训练部分的工作方式是通过使用配置组。task的实际配置在isaacgamenvs/config/task/<task>.yaml中,train的配置在isaac gamenvs/cnfig/train/<task>PPO.yaml中。

5、Tasks

tasks的源代码路径:isaacgymenvs/tasks
每个任务都将isaacgymenvs/base/vec_task.py中的VecEnv基类子类化;
建立自己的tasks可以参考:~/IsaacGymEnvs/docs/framework.md
每个tasks的细节可以参考:https://github.com/NVIDIA-Omniverse/IsaacGymEnvs/blob/main/docs/rl_examples.md

6、视频录制

获取模拟器图片的API:env.render(mode='rgb_rray')
获取模拟器视频的API:gym.wrappers.RecordVideo
通过以下示例可以存储视频到video文件夹中:

import gym
import isaacgym
import isaacgymenvs
import torch

envs = isaacgymenvs.make(
	seed=0, 
	task="Ant", 
	num_envs=20, 
	sim_device="cuda:0",
	rl_device="cuda:0",
	graphics_device_id=0,
	headless=False,
	multi_gpu=False,
	virtual_screen_capture=True,
	force_render=False,
)
envs.is_vector_env = True
envs = gym.wrappers.RecordVideo(
	envs,
	"./videos",
	step_trigger=lambda step: step % 10000 == 0, # record the videos every 10000 steps
	video_length=100  # for each video record up to 100 steps
)
envs.reset()
print("the image of Isaac Gym viewer is an array of shape", envs.render(mode="rgb_array").shape)
for _ in range(100):
	envs.step(
		torch.rand((20,)+envs.action_space.shape, device="cuda:0")
	)

7、在训练时存储视频

可以通过切换capture_video=True标志自动捕捉代理游戏的视频,并通过capture_video_len=100调整捕捉频率capture_video_freq=1500和视频长度。可以设置force_render=False,以在未捕捉视频时禁用渲染:

python train.py capture_video=True capture_video_freq=1500 capture_video_len=100 force_render=False

您还可以将视频自动上传到“权重和偏差”:

python train.py task=Ant wandb_activate=True wandb_entity=nvidia wandb_project=rl_games capture_video=True force_render=False

8、其他

  • 多GPU训练
    您可以使用torchuron(即torch.distributed)使用此存储库在NGC上运行多GPU训练。
    例如:
torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py multi_gpu=True task=Ant <OTHER_ARGS>

其中:
--nproc_per_node=: 指定要运行的进程数
multi_gpu=True: 必须在训练脚本上设置标志,才能运行多GPU训练。

  • 域随机化
    https://github.com/NVIDIA-Omniverse/IsaacGymEnvs/blob/main/docs/domain_randomization.md

  • 再现性和确定性
    https://github.com/NVIDIA-Omniverse/IsaacGymEnvs/blob/main/docs/reproducibility.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/16503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智芯传感-工业雷管禁售在即,电子雷管的大发展已然到来!

在我国重点支持发展的基础设施建设领域中&#xff0c;民爆行业是一个相对小众、但是非常重要的行业。在“十四五”规划中&#xff0c;国家大力推进电子雷管替代工业雷管&#xff0c;持续加强激励与引导&#xff0c;推进生产工艺及装备向安全可靠、绿色环保、智能制造方向发展&a…

Makefile 基础(二)—— Makefile 自动推导+ Makefile伪目标

目录 1、Makefile 自动推导&#xff08;隐含规则&#xff09; (1) 依赖项都在当前目录下 (2) 一部分依赖项不在当前目录下 2、Makefile 伪目标 1、Makefile 自动推导&#xff08;隐含规则&#xff09; 所谓隐含规则指的是&#xff0c;我们在Makefile文件中不使用 gcc/g 命…

openTCS 5.2 学习记录一(避坑)

openTCS5.2 学习记录一 初学者记录 一、学习背景 最近领导安排学习AGV相关调度方面的东西&#xff0c;我司使用的是openTCS来做AGV调度管理。本文主要记录最简单的启动&#xff0c;并且记录使用过程中的各个坑。 二、参考资料 openTCS官网 https://www.opentcs.org/en/ind…

玩机搞机-----安卓全机型刷机卡fastboot模式解决方法与故障解析

今天给友友们讨论下手机刷机后进不去系统卡fastboot模式一些问题解决方法和造成的原因故障解析。一般这类操作是由于以下几种原因导致的。包括但不限于以下其中之一 这种故障排除硬件原因除外哦 1-----刷第三方系统导致的重启卡fastboot模式 2-----降级更新官方固件跨版本幅…

Level1行情和l2行情数据api接口在逐笔成交记录上有什么区别?

除了买卖盘口显示的行情数据不同&#xff0c;Level-1行情和l2行情数据api接口第二个主要的区别是Level-1行情只有分时成交记录而l2行情数据api接口同时还提供逐笔成交记录。 也就是说Level-1行情是不提供具体的每笔交易明细的。但是l2行情数据api接口它记录了实时交易中每一笔…

第二章:Spring核心思想和IOC和AOP依赖注入

Spring 中IOC 如何理解&#xff1f; 中文控制反转&#xff0c;如何控制反转&#xff1f; 是一种思想&#xff0c;交给Spring容器来管理的一种思想&#xff0c;具体扫描注解&#xff0c;实现注入容器内。 平时使用某个类调用某个类的内的方法&#xff0c;需要先创建类的对象&a…

E 排队(排列组合)[牛客小*白月赛61]

题面如下&#xff1a; 思路 or 题解&#xff1a; 对于一个长度为 nnn 的 排列组合 如果存在一对 逆序对 (x,y)(x, y)(x,y) xxx 在 yyy 的前面有 n∗(n−1)2\frac{n * (n - 1)}{2}2n∗(n−1)​ 种情况 剩下 n−2n - 2n−2 个位置可以随意填数进去&#xff0c;不会影响到逆序对 …

Windows OpenGL ES 图像单色

目录 一.OpenGL ES 图像单色 1.原始图片2.效果演示 二.OpenGL ES 图像单色源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 OpenGL E…

(STM32)从零开始的RT-Thread之旅--SPI驱动ST7735(2)

上一篇&#xff1a; (STM32)从零开始的RT-Thread之旅--PWM驱动ST7735调光 本篇使用的驱动来自ST官方提供&#xff1a; https://github.com/STMicroelectronics/stm32-st7735.git 需要的可以直接git clone下来移植&#xff0c;核心代码无关芯片型号&#xff0c;可移植性很不…

销量上不去?跨境电商出现这5种迹象,你需要Starday了!

随着2015年"互联网"时代的来临&#xff0c;跨境电商行业逐步走进了资本市场的视野中&#xff0c;跨境电商成为了有望对抗出口增速下台阶的利器。近年来&#xff0c;随着国际贸易条件的恶化&#xff0c;以及欧洲、日本的需求持续疲弱&#xff0c;中国出口贸易增速出现…

[附源码]Python计算机毕业设计jspm郫县兼职信息系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

Egg实现用户注册登录以及使用jwt进行token鉴权

目录 什么是用户鉴权 注册接口 登录接口 jwt解密token 在一个后台服务中&#xff0c;用户鉴权是一个重点&#xff0c;几乎所有的需求都是围绕用户&#xff08;token&#xff09;去进行设计的&#xff0c;所以在用户鉴权也是我们必须要重视的课程&#xff0c;本章我们就利用…

【踩坑日记 · 前端】为 Excalidraw 添加中文手写字体

前言 Excalidraw 是一款完全免费的手绘风格绘图在线应用&#xff0c;能快速画出漂亮的流程图、示意图和图表&#xff0c;地址&#xff1a; Excalidraw | Hand-drawn look & feel • Collaborative • Secure 但美中不足的是&#xff0c;Excalidraw 只支持英文手写字体&…

[附源码]Python计算机毕业设计爱行无忧旅游票务管理系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

一文搞定,JMeter的三种参数化方式

1、Test Plan 中添加变量 可以在 Test Plan 中设置好添加变量&#xff0c;变量名可以在任意的位置使用&#xff0c;比如说在线程组中直接用${ 变量名 }方式引用&#xff0c;步骤如下&#xff1a; 1&#xff09;设置变量名和变量值 2&#xff09;添加线程组 3&#xff09;添…

记一场vue面试

Vue 修饰符有哪些 事件修饰符 .stop 阻止事件继续传播.prevent 阻止标签默认行为.capture 使用事件捕获模式,即元素自身触发的事件先在此处处理&#xff0c;然后才交由内部元素进行处理.self 只当在 event.target 是当前元素自身时触发处理函数.once 事件将只会触发一次.pass…

AcWing 数据结构

单链表 邻接表用的多 存储树和图 new()速度慢 数组模拟 模板 -1代表头节点 const int N 1e6 5; // head存储链表头 //e[]存储节点的值 //ne[]存储节点的next指针 //idx表示当前用到了哪个节点 int head, e[N], ne[N], idx;// 初始化 void init() {head -1;idx 0; }// 将…

皕杰报表之控件元素

在皕杰报表中&#xff0c;填报操作时&#xff0c;控件类型分为无输入控件、文本框、文本域、下拉框、下拉树、单选框、复选框、日期、时间、日期时间、自定义控件类型。如图所示&#xff1a; 1 无输入控件 选中此控件的单元格在页面生成无任何变化&#xff1b; 2 文本框 选中…

加拿大海运专线怎么选?加拿大海运专线有哪些费用

由于全球经济的发展&#xff0c;近年来&#xff0c;越来越多的国内跨境电商卖家向加拿大和、墨西哥、欧洲、美国等出口货物&#xff0c;而海运的运输方式相对比较划算。那么加拿大海运专线怎么选?又有哪些费用呢?一、加拿大海运专线怎么选 加拿大海运专线运输方式有整柜运输和…

Linux-----网络套接字编程

文章目录铺垫一下概念知识基于UDP协议下的套接字编程基于TCP协议下的套接字编程铺垫一下概念知识 我们知道IP地址是用来标识主机唯一性的。 而源IP地址表示从哪个主机来&#xff0c; 目的IP地址表示去哪个主机。 端口号&#xff08;port&#xff09;&#xff1a; 1&#xff0…