具身智能论文问答(三):Open VLA

news2026/5/3 12:33:09
第一层核心直觉 (TL;DR - 宏观视角)核心痛点尽管像 RT-2 这样的视觉-语言-动作模型VLA展现出了惊人的泛化能力但它们大多是闭源的普通研究者难以访问 。同时以前的开源通才策略如 Octo往往需要从头拼凑不同的网络模块缺乏端到端的高效微调最佳实践 。核心 Idea作者提出了OpenVLA一个拥有 7B70亿参数的开源 VLA 模型 。它的核心思路是拿一个已经用海量互联网数据训练好的视觉-语言大模型VLM具体是 Prismatic-7B将其直接放在包含了 97 万条真实机器人轨迹的庞大数据集Open X-Embodiment上进行微调让它学会输出机器人的控制指令 。直观比喻想象你要教一个人开车。传统机器人学习就像是教一个刚出生的婴儿他连红绿灯和汽车长什么样都不知道得从零教起。而 OpenVLA 的思路是找一个“已经读完大英百科全书的成年人”预训练的视觉语言模型拥有常识和视觉理解能力然后直接给他看 97 万集“第一人称开车视频”机器人轨迹他就能迅速且稳健地学会开车甚至能应对从没见过的奇葩路况泛化能力。第二层技术框架 (High-Level - 系统架构视角)整体架构 (Pipeline)视觉编码器 (Vision Encoder)将输入的图像转化为特征向量 。MLP 投影层 (Projector)将视觉特征映射到语言大模型的输入空间中 。大语言模型骨干 (LLM Backbone)使用 Llama 2 7B将视觉特征和文本指令结合以自回归Next-token prediction的方式预测机器人的动作系统的输入与输出输入一张单视角的 RGB 图像环境观察 自然语言指令例如Put eggplant in bowl 。输出7 维的连续机器人动作$X, Y, Z$ 上的位移三个旋转角度 $\Delta \theta$以及夹爪的开合程度 $\Delta Grip$ 。这些连续动作会被转化为离散的文本 Token 输出 。与 Baseline 的核心差异与闭源的 RT-2-X 相比OpenVLA 参数量小了一个数量级7B vs 55B但在多个通用操作任务上绝对成功率高出了 16.5% 。与开源的 Octo 相比Octo 倾向于从头训练并“缝合”预训练组件而 OpenVLA 采用端到端的微调策略把动作直接当做语言词表里的 Token 来预测架构更简单且扩展性更强 。采用了融合的视觉编码器SigLIP DINOv2相比单一编码器如 CLIP能同时捕获高级语义和低级空间特征 。第三层硬核细节 (Deep Dive - 研究与复现视角)核心算法与机制设计动作离散化 (Action Tokenization)连续动作必须变成大模型能懂的离散 Token。作者将每个动作维度划分为 256 个 bin 。巧妙的是他们没有使用简单的最大最小值而是使用训练数据中 $1^{st}$ 到 $99^{th}$ 分位数来确定边界这样可以有效忽略异常值Outliers对分辨率的破坏 。词表替换Llama 2 预留的特殊 Token 不够用作者直接暴力但有效地覆盖了 Llama 词汇表中最不常用的后 256 个 Token 作为动作 Token 。损失函数使用标准的交叉熵损失进行下一个 Token 预测并且仅计算动作 Token 的损失实验设置与核心 Metrics训练数据基于 Open X-Embodiment 数据集经过严格清洗的 970k 条轨迹 。测试评估在 BridgeData V2、Google 移动机器人以及多个 Franka 机械臂环境中进行 。Metrics核心指标是不同泛化轴视觉、运动、物理、语义泛化上的绝对任务成功率。消融实验 (Ablation Study) 的关键结论最重要提升OpenX 大规模数据预训练。剥离 OpenX 数据仅在目标数据集微调会导致性能暴跌 30% 。视觉编码器必须解冻微调。以前 VLM 领域的共识是冻结视觉塔效果好但在机器人控制中作者发现如果不解冻并微调视觉编码器模型对细粒度空间细节的掌控力极差性能会大幅下降 。融合视觉编码器的红利。移除 DINOv2 仅使用 SigLIP会导致 5% 的性能下降证明空间特征DINOv2对控制有增益 。低秩微调 (LoRA)仅训练 1.4% 的参数$r32$就能达到全参微调的性能彻底打通了消费级显卡单张 A100几小时内完成新任务适配的路径 。第四层批判与拓展 (Reviewer 视角)当前方法的局限性观测模态单一目前 OpenVLA 仅支持单图像输入缺乏对多相机视角Multi-camera和本体感觉Proprioception如关节角度历史数据的支持 。推理速度与控制频率瓶颈在未经量化加速的情况下RTX 4090 上的推理速度仅为 6Hz 。对于需要 50Hz 控制频率的高动态或高灵巧任务如 ALOHA 系统的双臂操作目前的速度远远不够 。缺乏时间平滑性OpenVLA 是一个单步动作预测模型没有引入扩散策略Diffusion Policy中的动作分块Action Chunking技术这导致在需要高精度和时间一致性的灵巧操作上表现不如从头训练的扩散模型 。下一步突破口 (Future Work)多模态时间序列融合引入交错的图文预训练 VLM使其原生支持多帧图像历史和本体状态输入以解决部分遮挡和复杂状态估计问题 。推理加速与动作分块的结合利用投机解码Speculative Decoding或结合 Action Chunking 机制让大模型一次吐出未来的一系列轨迹点而不是单个点以此跨越低频控制带来的物理限制进军双臂精细操作领域 。数据协同训练 (Co-training)探究如果在微调机器人动作的同时保持一定比例的互联网图文数据训练是否能进一步减少“灾难性遗忘”提升语义泛化能力 。Level 1: 基础概念与直觉 (Foundation Intuition)核心定位与之前像 RT-2 这样的闭源庞然大物或者 Octo 这样依赖模块拼接的开源基线相比OpenVLA 最大的架构差异和核心开源贡献是什么 输入与输出映射作为一个纯粹的自回归语言模型OpenVLA 具体是如何将机器人连续的 7 维空间动作末端执行器的 XYZ 位移、旋转和夹爪开合转化为模型可以预测的“语言”的 Level 2: 架构与技术细节 (Architecture Technical Details)视觉特征的互补为什么 OpenVLA 的视觉编码器没有选择单一的 CLIP 或 SigLIP而是选择了融合 SigLIP 和 DINOv2这两种特征分别在机器人操作中起到了什么互补作用 冻结与微调的反常识在训练传统的视觉语言大模型VLM时主流做法通常是冻结Freeze视觉编码器以保留预训练的通用特征。为什么在 OpenVLA 中作者发现“解冻并全参微调”视觉塔反而是极其关键的 动作分词的鲁棒性在把连续动作离散化为 256 个 bin 时作者为什么选择基于数据分位数1st 到 99th quantile而不是直接使用简单的最小-最大边界min-max bounds Level 3: 实验现象与微调范式 (Experiments Fine-tuning)海量数据的本质消融实验表明如果剥离 Open X-Embodiment 数据集仅仅在目标机械臂的子数据集上微调模型的成功率会暴跌 30% 。你认为这种基于多具身数据的预训练到底为模型注入了什么层面的能力是视觉鲁棒性、还是语义对齐 平民化的适配策略对于资源有限的个人开发者或实验室论文推荐了哪一种参数高效微调PEFT策略使得模型可以在单张消费级显卡上快速适配新任务且几乎不损失全参微调的性能 Level 4: 领域前沿与架构拓展 (Frontier Architectural Extension)融入 3D 空间感知拓展题目前 OpenVLA 仅依赖单视角的 RGB 图像输入 。如果我们希望在输入侧引入深度图Depth map或点云Point clouds来增强三维空间感知你认为在现有的 Prismatic 骨干网络结构中应该如何设计特征对齐和融合的切入点结合层次化控制拓展题OpenVLA 目前是直接输出单步底层动作的“端到端”模型。如果我们采用“大小脑Big Brain / Small Brain”的分层控制架构——让 OpenVLA 作为大脑袋负责任务拆解和语义子目标规划让 Diffusion Policy 作为小脑负责高频、灵巧的底层动作生成。这种架构能解决目前 OpenVLA 的哪些固有痛点 部署与动态延迟拓展题论文提到在 8-bit 量化推理时由于算力导致的推理延迟降低了控制频率直接改变了系统的物理动力学特征导致任务成功率骤降 。在准备未来的实机演示或实习汇报时除了硬件升级你会考虑在算法侧采用哪些技术手段比如 Action Chunking 或 Speculative Decoding来弥合大模型延迟带来的控制鸿沟 Level 1: 基础概念与直觉1. 核心定位 OpenVLA 的核心贡献在于它是一个完全开源的高性能模型打破了 RT-2 等商业模型在权重和训练细节上的封闭性 。与 Octo 这种从头训练并拼凑各个预训练组件视觉、语言分立的做法不同OpenVLA 采用了端到端End-to-End的直觉范式它直接将预训练的视觉-语言大模型Prismatic-7B作为骨干把机器人动作当成一种外语通过语言模型的自回归机制进行微调预测 。2. 输入与输出映射 模型将 7 维连续动作如 $X, Y, Z$ 坐标、旋转角和夹爪状态的每个维度独立离散化为 256 个 bin 。为了不增加 Llama Tokenizer 的词表大小从而导致底层 embedding 维度变动作者极其直接地用这 256 个动作 Token 覆盖了词汇表中最不常用的后 256 个特殊 Token 。随后模型像预测下一个单词一样通过标准的交叉熵损失仅计算动作 Token 的损失来预测动作序列 。Level 2: 架构与技术细节3. 视觉特征的互补 SigLIP 擅长全局语义理解比如“这是一个红色的苹果”但缺乏精确的物理坐标感而 DINOv2 是在自监督下训练的能够提取非常细粒度、低级别的空间和几何边界信息 。两者的特征在通道维度拼接后使得模型在面对需要高精度对齐和避障的复杂物理操作时拥有了显著增强的空间推理能力 。4. 冻结与微调的反常识 在传统的 VLM 任务如视觉问答中冻结视觉塔能更好地保留互联网规模预训练的常识 。但机器人控制是一个高频的物理交互过程原生的互联网图像特征缺乏极其微小的空间位移感知能力 。解冻并进行全参微调能让视觉编码器直接适应真实的物理操作几何场避免机器人在执行中出现迷之抖动或不稳定行为 。5. 动作分词的鲁棒性 使用 1% 到 99% 的分位数进行离散化是为了过滤掉训练数据中极少数异常的超大动作值Outliers 。如果直接使用 min-max bounds这几个极端值会把动作区间的上限和下限拉得极大导致划分出的 256 个 bin 的实际物理粒度分辨率变得非常粗糙从而严重降低控制精度 。Level 3: 实验现象与微调范式6. 海量数据的本质 剥离 Open X-Embodiment 数据集会导致性能暴跌 30%这主要损失了模型跨场景、跨物体的视觉鲁棒性与语义泛化能力。实验表明如果仅在目标数据上微调模型其实能完成简单的单一指令但在面临多指令干扰、从未见过的桌面背景或新物体Semantic Generalization时OpenX 数据集注入的“见多识广”的先验底座是决定成败的关键 。7. 平民化的适配策略 对于资源有限的团队论文首推使用LoRA低秩微调Rank32策略 。该策略只需要更新模型 1.4% 的参数就能完全媲美全参微调的成功率并且在单张 A100 显卡上仅耗时 10-15 小时即可完成对新任务的适配 。Level 4: 领域前沿与架构拓展8. 融入 3D 空间感知拓展如果要将点云或深度图融入 Prismatic 骨干网络一种优雅的思路是采用“补丁即 Token (Patch-as-token)”的思想。现有的 DINOv2 已经能处理 2D 空间特征我们可以通过 PointNet 或 PointMAE 提取三维点云的局部几何特征将其投影到与 2D Tokens 相同的维度作为独立的 3D Tokens。在进入大语言模型前将 RGB 提取的 2D 语义 Tokens 与三维几何 Tokens 在序列层面进行级联Concatenation。这样既不需要大幅修改原有的注意力机制又能为 VLM 补足纯视觉极度缺乏的绝对深度感知。9. 结合层次化控制拓展 采用 Big Brain / Small Brain 分层架构正好能弥补 OpenVLA 目前输出单步底层动作的局限性。受限于 7B 的庞大体量OpenVLA 难以达到 50Hz 等高频控制要求且由于未引入动作分块Action Chunking精细操作不够平滑 。我们可以让 OpenVLA 作为“大模型”负责复杂语义推理、场景常识理解和长期任务分解将其输出的子目标坐标或中间层 Embedding作为 Condition 喂给底层的 Diffusion Policy或类似 $\pi_0$ 这样的小模型。这样由“小脑”负责高频、灵巧的局部轨迹生成既保住了 VLA 强大的零样本泛化又打通了工业级的高频闭环。10. 部署与动态延迟拓展 延迟带来的控制频率下降会直接改变系统原有的动力学特性这是导致 8-bit 量化任务成功率骤降的核心原因 。在六月份推进实机部署或向导师做技术方案汇报时除了采用 4-bit 量化实测能跑 3Hz 且显存减半 算法层面的终极解法是引入Action Chunking。让 VLA 一次自回归吐出未来 $T$ 个时间步的动作序列在下一次极耗时的推理完成前开环执行这几步动作 。此外利用投机解码Speculative Decoding让一个小模型去猜测下一个 Token大模型只做并行验证也是目前在不牺牲精度的前提下加速 VLA 部署的最优工程路径之一 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2574657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…