OpenVLA (2) 机器人环境和环境数据

news2025/5/19 2:10:31

文章目录

    • @[TOC](文章目录)
  • 前言
  • 1 BridgeData V2
    • 1.1 概述
    • 1.2 硬件环境
  • 2 数据集
    • 2.1 场景与结构
    • 2.2 数据结构
      • 2.2.1 images0
      • 2.2.2 obs_dict.pkl
      • 2.2.3 policy_out.pkl
  • 3 close question
    • 3.1 英伟达环境
    • 3.2 LIBERO 环境更适合仿真
    • 3.3 4090 运行问题

前言

按照笔者之前的行业经验, 数据集的整理是非常重要的, 因此笔者这里增加原文中出现的几个数据集和环境的学习


1 BridgeData V2

在这里插入图片描述

1.1 概述

在这里插入图片描述
skill 例如:抓取(pick), 放置(place), 推动(pushing), 清扫(sweeping), 堆叠(stacking), 折叠(folding)
trajectories 就是action集合:
在这里插入图片描述
其中数据集合结构图如下:

图像分辨率:640×480

1.2 硬件环境

BridgeData的整体环境如图:
在这里插入图片描述

其中所有的硬件(包括支架, 导轨,工件 等等)描述链接如下:
https://docs.google.com/document/d/1si-6cTElTWTgflwcZRPfgHU7-UwfCUkEztkH3ge5CGc/edit?pli=1&tab=t.0
在这里插入图片描述
该平台主要的内容:
一个固定视角(over-the-shoulder) 的RGBD(Intel D435),
一个固连在机器人腕部的RGB(custom Raspberry Pi),
两个可变视角RGB(Logitech C920),在数据采集过程中会被更改。

我们关心的机械臂和摄像头参数如下:
在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述
但是要注意的是openVLA没有用腕部摄像头(原因是方便 PK 其他工作), 因此只用了第三人视角的摄像头
在这里插入图片描述

2 数据集

2.1 场景与结构

可以看到数据集合总共有两种
在这里插入图片描述

类型说明
Human demonstrations人类通过遥操作(如鼠标/VR 手柄)控制机器人执行任务,系统记录图像、指令和动作
Scripted policies开发者用 Python/控制代码编写一套“规则程序”,在给定场景中自动执行任务,比如:“如果检测到杯子在桌面中心,则移动 gripper 到目标点并下降”

数据结构如下图, 其中每个traj_group 都是相同场景,固定部分摆件,然后制造数据
在这里插入图片描述
再升一级目录,我们可以看到 相同的场景,不同的拍摄时间对应不同的 摆件,而不是控制部分不同的摆件
在这里插入图片描述

我们, 再进入raw 数据,可以看到bridge_data的场景结构
在这里插入图片描述
其中这里作者还为数据的正确性做了验证放了一张diagnostics.png 图片以显示当前 通过脚本给定数据的正确性.
在这里插入图片描述

名称意义数据来源
xpos实际执行到的位置通过机器人反馈采集,每一帧记录
despos计划中的目标位置来自控制策略(如 scripted policy)或人类操作输入

2.2 数据结构

每一组数据里都包含三个文件:

在这里插入图片描述

2.2.1 images0

images0 是用于ViT的一组图片, obj_dict 是场景信息
在这里插入图片描述
可以看出就是完成一个 trajetory的过程.

2.2.2 obs_dict.pkl

在这里插入图片描述

键名含义
joint_effort每个关节的施加力矩(关节力)
qpos关节位置(Joint Position)
qvel关节速度(Joint Velocity)
full_state完整状态向量(包含位姿、关节等)
state简化状态(可能是观测空间状态)
desired_state控制器期望状态(即 despos 源)
time_stamp每帧时间戳
eef_transform End-Effector的变换矩阵(即 gripper 位姿)
high_bound / low_bound状态空间上下界
env_done当前帧是否终止(布尔)
t_get_obs获取观测时耗(调试用)

其中
eef_transform代表的是 gripper 的六自由度位姿变换矩阵(通常是 4x4),可以从中提取出:
(1) 平移向量(x, y, z) 即我们要的 xpos
(2) 旋转矩阵 , 可进一步转为欧拉角(roll, pitch, yaw)

2.2.3 policy_out.pkl

索引含义示例值说明
[0:3]Δx, Δy, Δz-0.012, 0.037, 0.004空间位置变化向量(平移动作)
[3:6]Δroll, Δpitch, Δyaw0.0043, -0.0037, -0.8251欧拉角空间的姿态微调(旋转动作)
[6]gripper_open1 or 0夹爪开闭指令(1 表示张开,0 表示闭合)

在这里插入图片描述
我这条case 共计49组,这张图是记录了 xyz的运动轨迹
在这里插入图片描述
这张图分析了 爪子夹取东西的时间分布图.在这里插入图片描述

3 close question

3.1 英伟达环境

Can anyone provide a tutorial on how to use OpenVLA to control a robotic arm?
在这里插入图片描述

3.2 LIBERO 环境更适合仿真

In SimplerENV, select google robot or WidowX, unnorm_key=bridge_orig, the effect is not good, can not complete the task.
Status: Closed (completed).
#84 In openvla/openvla;· by zhou-pig was closed on Sep 5, 2024
在这里插入图片描述

3.3 4090 运行问题

Unable to Reproduce 6 Actions/s Inference on RTX4090 #66

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2378938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码复现5——VLMaps

项目地址 1 Setup # 拉取VLMaps仓库,成功运行后会在主目录生成文件夹vlmapsgit clone https://github.com/vlmaps/vlmaps.git#通过 conda 创建虚拟环境conda create -n vlmaps python=3.8 -yconda activate vlmaps #激活环境cd vlmaps # 切换到项目文件下bash install.ba…

Ocean: Object-aware Anchor-free Tracking

领域:Object tracking It aims to infer the location of an arbitrary target in a video sequence, given only its location in the first frame 问题/现象: Anchor-based Siamese trackers have achieved remarkable advancements in accuracy, yet…

计算机网络(1)——概述

1.计算机网络基本概念 1.1 什么是计算机网络 计算机网络的产生背景 在计算机网络出现之前,计算机之间都是相互独立的,每台计算机只能访问自身存储的数据,无法与其他计算机进行数据交换和资源共享。这种独立的计算机系统存在诸多局限性&#…

刘家祎双剧收官见证蜕变,诠释多面人生

近期,两部风格迥异的剧集迎来收官时刻,而青年演员刘家祎在《我家的医生》与《无尽的尽头》中的精彩演绎,无疑成为观众热议的焦点。从温暖治愈的医疗日常到冷峻深刻的少年救赎,他以极具张力的表演,展现出令人惊叹的可塑…

Axure制作可视化大屏动态滚动列表教程

在可视化大屏设计中,动态滚动列表是一种常见且实用的展示方式,能够有效地展示大量信息。本文将详细介绍如何使用Axure制作一个动态滚动的列表展示模块。 一、准备工作 打开Axure软件:确保你已经安装并打开了Axure RP软件。创建新项目&#x…

MATLAB实现振幅调制(AM调制信号)

AM调制是通信专业非常重要的一个知识点。今天我们使用MATLAB编程实现AM调制。 我们实现输入一个载波信号的频率与调制信号的频率后,再输入调幅度,得到已调信号的波形与包络信号的波形,再使用FFT算法分析出已调信号的频谱图。 源代码&#x…

6.1.1图的基本概念

基本概念 图: 顶点集边集 顶点集:所有顶点的集合,不能为空(因为图是顶点集和边集组成,其中一个顶点集不能为空,则图肯定不为空) 边集:所有边的集合,边是由顶点集中的2…

Linux面试题集合(6)

创建多级目录或者同级目录 mkdir -p 文件名/文件名/文件名 mkdir -p 文件名 文件名 文件名 Linux创建一个文件 touch 文件名 DOS命令创建文件 echo 内容>文件名(创建一个有内容的文件) echo >文件名(创建一个没有内容的文件&#xff09…

时间筛掉了不够坚定的东西

2025年5月17日,16~25℃,还好 待办: 《高等数学1》重修考试 《高等数学2》备课 《物理[2]》备课 《高等数学2》取消考试资格学生名单 《物理[2]》取消考试资格名单 职称申报材料 2024年税务申报 5月24日、25日监考报名 遇见:敲了一…

YOLOv7训练时4个类别只出2个类别

正常是4个类别: 但是YOLOv7训练完后预测总是只有两个类别: 而且都是LFM和SFM 我一开始检查了下特征图大小,如果输入是640*640的话,三个尺度特征图是80*80,40*40,20*20;如果输入是416*416的话,三个尺度特征…

【论文阅读】针对BEV感知的攻击

Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving 这篇文章是发表在CVPR上的一篇文章,针对基于BEV的目标检测算法进行了两类可靠性分析,即恶劣自然条件以及敌对攻击。同时也提出了一…

flutter 配置 安卓、Ios启动图

android 配置启动图 launch_background.xml <?xml version"1.0" encoding"utf-8"?> <!-- Modify this file to customize your launch splash screen --> <layer-list xmlns:android"http://schemas.android.com/apk/res/android&…

基于朴素贝叶斯与 LSTM 的假新闻检测模型对比分析

一、引言 在信息爆炸的时代&#xff0c;假新闻的传播对社会产生了诸多负面影响。如何快速、准确地识别假新闻成为了重要的研究课题。本文将对比传统机器学习算法&#xff08;朴素贝叶斯&#xff09;与深度学习模型&#xff08;LSTM&#xff09;在假新闻检测任务中的性能表现&am…

【LeetCode 热题 100】搜索插入位置 / 搜索旋转排序数组 / 寻找旋转排序数组中的最小值

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;LeetCode 热题 100 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 搜索插入位置搜索二维矩阵在排序数组中查找元素的第一个和最后一个位置搜索旋转排序数组寻找旋转排序数组中的最小值…

副业小程序YUERGS,从开发到变现

文章目录 我为什么写这个小程序网站转小程序有什么坑有什么推广渠道个人开发者如何变现简单介绍YUERGS小程序给独立开发者一点小建议 我为什么写这个小程序 关注我的粉丝应该知道&#xff0c;我在硕士阶段就已经掌握了小程序开发技能&#xff0c;并写了一个名为“约球online”…

基于LLM合成高质量情感数据,提升情感分类能力!!

摘要&#xff1a;大多数用于情感分析的数据集缺乏意见表达的上下文&#xff0c;而上下文对于理解情绪往往至关重要&#xff0c;并且这些数据集主要局限于几种情绪类别。像 GPT-4 这样的基础大型语言模型&#xff08;Foundation Large Language Models&#xff0c;LLMs&#xff…

网络检测工具InternetTest v8.9.1.2504 单文件版,支持一键查询IP/DNS、WIFI密码信息

—————【下 载 地 址】——————— 【​本章下载一】&#xff1a;https://drive.uc.cn/s/295e068b79314 【​本章下载二】&#xff1a;https://pan.xunlei.com/s/VOQDXguH0DYPxrql5y2zlkhTA1?pwdg2nx# 【百款黑科技】&#xff1a;https://ucnygalh6wle.feishu.cn/wiki/…

【网络编程】十、详解 UDP 协议

文章目录 Ⅰ. 传输层概述1、进程之间的通信2、再谈端口号端口号的引出五元组标识一个通信端口号范围划分常见的知名端口号查看知名端口号协议号 VS 端口号 3、两个问题一个端口号是否可以被多个进程绑定&#xff1f;一个进程是否可以绑定多个端口号&#xff1f; 4、部分常见指令…

[目标检测] YOLO系列算法讲解

前言 目标检测就是做到给模型输入一张图片或者视频&#xff0c;模型可以迅速判断出视频和图片里面感兴趣的目标所有的位置和它 的类别&#xff0c;而当前最热门的目标检测的模型也就是YOLO系列了。 YOLO系列的模型的提出&#xff0c;是为了解决当时目标检测的模型帧率太低而提…

.NET NativeAOT 指南

目录 1. 引言 2. 什么是 .NET NativeAOT&#xff1f; 2.1 NativeAOT 的定义 2.2 NativeAOT 与传统 JIT 的对比 2.3 NativeAOT 的适用场景 3. NativeAOT 的核心优势 3.1 性能提升 3.2 简化部署 3.3 更小的应用体积 3.4 知识产权保护 4. NativeAOT 的基本用法 4.1 环境…