VLA学习笔记——持续更新中

news2026/4/3 8:39:19

5 VLA - Vision-Language-Action 大模型Vision-Language-Action(视觉 - 语言 - 动作) 大模型是之后多模态 AI 以及机器人发展的一个非常重要的方向有了 VLA 这位大神的加持机器人可以完成由环境感知到动作应对的智能任务。欢迎大家star!Paper:OpenVLALerobot 数据格式1. GR00Thttps://developer.nvidia.cn/isaac/gr00t代码 https://github.com/NVIDIA/Isaac-GR00TGR00T N1 是 NVIDIA 在 GTC 2025 大会上发布的 VLA 机器人模型基于双系统快慢架构System 2 是一个 VLM 预训练模型System 1 是一个 Diffusion Transformer 模型支持多类形态的机器人单臂、双臂、人形如下图所示VLM 负责推理和规划DiT 负责生成精确的动作。已经更新到 N1.5 了比 N1 有不小的提升。N1.5 和 N1 的主要不同VLM 模型在预训练和微调阶段都保持冻结简化了从视觉编码器到大语言模型的 adapter MLP并在输入 LLM 的视觉和文本 token embeddings 上都加了层归一化VLM 升级到了 Eagle-2.5将图像观测和语言指令转化为一系列 tokens将这些 tokens 传给 VLMSystem 2然后将 VLM 的输出连同机器人状态和 action 的编码传给 Diffusion TransformerSystem 1以生成 Motor Action。System 1为了解决不同机器人 state 和 action 维度差异的问题使用和 pi0 相似的策略每个机器人本体的数据使用一个对应的 MLP Encoder(Action Encoder)将不同机器人的 state 和 action 数据映射为一个统一空间的数据再传给 DiT 模块。System 2使用 Eagle-2 VLM 的预训练模块该模型是在互联网规模数据上进行预训练的同时作者发现使用中间层 embedding 特征要比使用最后一层的 embedding 特征可以实现更高的推理速度和策略成功率在 GR00T-N1-2B 中作者使用的是第 12 层的特征。可以理解为越是往后层的特征语义信息越强细化信息越弱所以使用中间层的特征可以获取更多的图像和语言的低层特征且兼顾语义是在冻结 VLM 的情况下提升效果的一个比较好的思路。Eagle-2是从 SmolLM2 大语言模型和 SigLIP-2 图像编码器微调得到的。图像在 224x224 的分辨率下进行编码随后进行像素混洗每帧形成 64 个 image token embeddings。这些 embeddings 与文本一起通过 Eagle-2 VLM 的 LLM 组件进一步编码。LLM 和图像编码器在一个广泛的视觉语言任务上进行了对齐。在策略训练期间任务的文本描述以及可能是多个图像以在视觉语言训练期间使用的聊天格式传给 VLM。然后从 LLM 中提取形状为batch × sequence_length × hidden_dimension的视觉语言特征。这里的 Eagle-2 是 NVIDIA 自己开发的 Eagle-2不是北大和渥太华的那个 Eagle-2 喔。Eagle-2 有 90 亿/20 亿/10 亿参数三个版本分别基于阿里 QWen2.5 的 320 亿/15 亿/5 亿对于 15 亿和 5 亿版本只用了 SigLIP 做视觉编码。GR00T N1 默认使用的是 20 亿参数版本。System 1 使用了 DiT 架构DiT 架构具体如下DiT 与 Stable Diffusion 最大的不同在于DiT 将网络结构从 UNet 换成了 Transformer从而大幅提升了性能。GR00T 架构没有太多创新之处其关键其实是训练数据以及 NVIDIA 强大的生态体系。GR00T N1 的 20 亿参数版本训练时间大约是 5 万 H100 小时使用 1024 张 H100 显卡90 亿参数则是 25 万 H100 小时以上训练成本是比较低的数据的成本至少是训练成本的 100 倍。那么来看看 Data 吧。机器人中的数据金字塔从下往上数据规模降低数据专业度增强。基本思路是用互联网等大规模数据训练常识用机器人采集的高质量数据提升运动控制的专业度。真实世界、合成数据和网络数据三大类。GR00T 预训练数据包括互联网视频数据提供人类动作模式和任务语义、合成数据基于 NVIDIA Omniverse 平台生成补充运动控制信号和真实机器人数据遥操作收集确保模型适应真实环境。无监督学习从大规模未标注的人类视频数据中提取运动模式提升机器人学习效率。在大规模数据上进行预训练学习通用的运动和操作模式。而针对特定机器人平台、任务和环境进行微调可以进一步提升模型的适应性和性能。在推理阶段减少扩散步骤等方式优化计算效率确保实时性。Latent ActionLatent space 在 GR00T N1 模型中发挥着关键作用它主要用于处理无直接可用动作标签的数据统一数据表示空间提升模型泛化能力在模型训练和动作生成等方面都有着不可或缺的功能。处理无动作标签数据在人类中心视频和神经轨迹数据中由于没有可直接用于训练 GR00T N1 的动作标签通过训练 VQ-VAE 模型从视频的连续图像帧中提取潜在动作。该模型的编码器采用固定窗口大小为 H 的视频的当前帧 x_t 和未来帧 x_{tH}输出潜在动作 z_t解码器则利用 z_t 和 x_t 重构 x_{tH}。训练完成后编码器可作为逆动力学模型为这些无动作标签的数据生成潜在动作标签从而将其用于模型训练。统一数据表示空间在处理各类异构数据时将 VQ-VAE 模型在所有数据上共同训练能使不同来源的数据共享相同的潜在动作空间。这意味着无论是机器人数据还是人类数据都能在同一潜在空间中进行表示消除了数据之间的差异有助于模型更好地学习不同数据之间地共性提高跨实体泛化能力。提升模型泛化能力通过在潜在空间中统一数据模型可用学习到更通用地动作模式。从不同实体如不同机器人和人类中检索到相似地潜在动作如将右臂向左移动或将右臂向右移动的潜在动作在不同实体中具有一致性。这使得模型在面对新的任务或实体时能够利用潜在空间中学习到的通用动作模式快速适应并执行任务增强了模型的泛化性能。pi0 架构有点像 MoEvlm 与 action expert 作为两个 expert这两个 expert 在同一个 transformer 中训练利用一个 attention mask 让 action expert 能看到 VLM但 VLM 看不到 action。是靠一个块级 (blockwise) 的 attention mask 做出来的mask_attn_mask(input_mask, mask_ar)mask_ar块边界的构造同文件里的embed_prefix() / embed_suffix()defmake_attn_mask(input_mask,mask_ar):Adapted from big_vision. Tokens can attend to valid inputs tokens which have a cumulative mask_ar smaller or equal to theirs. This way mask_ar bool[?B, N] can be used to setup several types of attention, for example: [[1 1 1 1 1 1]]: pure causal attention. [[0 0 0 1 1 1]]: prefix-lm attention. The first 3 tokens can attend between themselves and the last 3 tokens have a causal attention. The first entry could also be a 1 without changing behaviour. [[1 0 1 0 1 0 0 1 0 0]]: causal attention between 4 blocks. Tokens of a block can attend all previous blocks and all tokens on the same block. Args: input_mask: bool[B, N] true if its part of the input, false if padding. mask_ar: bool[?B, N] mask thats true where previous tokens cannot depend on it and false where it shares the same attention mask as the previous token. mask_arjnp.broadcast_to(mask_ar,input_mask.shape)cumsumjnp.cumsum(mask_ar,axis1)attn_maskcumsum[:,None,:]cumsum[:,:,None]valid_maskinput_mask[:,None,:]*input_mask[:,:,None]returnjnp.logical_and(attn_mask,valid_mask)mask 的设计思路关键用 mask_ar 的累积和来分块GR00T N1.6中 DiT 从 16 层升级至 32 层。并且取消了临时的适配器层转而直接解冻 VLM 顶部的 4 层进行协同训练实现了视觉到动作的无缝对接。推荐几篇博客GR00T N1.5 技术报告 – Nvidia – 2025.6.11 – 开源-CSDN 博客如何在 Lerobot SO101 机械臂上复现 GR00T可参考以下几篇博客https://zhuanlan.zhihu.com/p/1918671075098730978https://cloud.tencent.com/developer/article/25326792. Pi0通用机器人大模型主页https://www.physicalintelligence.company/blog/pi0https://huggingface.cn/blog/pi0π0 是 2024 年 10 月底 Physical Intelligence 公司提出的一个通用机器人控制的流匹配 VLA 模型如图所示π0 用了一个预训练 VLM backbone并添加一个动作专家 (action expert)通过流匹配 (flow matching) 的方式生成连续的高频的控制信号。整个架构如下预训练 VLM backbone利用PaliGemma等大规模预训练的 VLM将图像和文本信息嵌入统一的表示空间继承了互联网规模的语义知识和视觉信息提取能力。跨机器人平台数据论文中使用了来自 7 种不同机器人配置68 个任务的大规模数据总计超 10,000 小时实现跨平台、跨任务的联合训练从而提升模型的泛化能力。这里还涉及到维度对齐的问题为了使数据结构统一所有机器人的状态数据被对齐为最大维度 (18 维)包括两个 6-DoF 的机械臂、两个夹爪、一个移动底盘和一个垂直驱动的躯干。对于其他机器人状态空缺部分会被填充为 0以确保数据的一致性。图像数据默认包括三个视角若缺失某些视角系统会用 mask 进行填充。通过 Flow Matching 进行动作生成针对连续动作生成的挑战论文采用了一种基于扩散思想的流匹配使得模型能够生成高频 (例如50Hz) 且精细的动作序列。与传统自回归离散生成方法相比流匹配可以更好地处理连续控制信号和复杂动作分布 (β分布)混合专家 (MoE) 设计模型内部将输入分为两大部分一部分图像和文本走 VLM backbone另一部分机器人状态和动作通过专门设计的动作专家处理这种设计有助于更好地融合预训练知识和机器人特定的控制需求。与非 VLM 模型做了对照训练了一个未使用 VLM 初始化的类似对照模型用于消融实验称之为 π0-small其参数量为 4.7 亿未采用 VLM 初始化并针对非 VLM 初始化情境在结构上做了一些小改动帮助更好地在本文的数据上进行训练。该模型用于评估使用VLM 初始化带来的收益。预训练的目标是让模型接触到多样化的任务从而习得通用的物理能力而后训练的目标则是让模型能够熟练地完成具体地下游任务。预训练与后训练阶段所需的数据具有不同特点预训练数据集应覆盖尽可能多的任务并且在每个任务内包含多种行为方式后训练数据集则应着重于高质量、流畅、连贯的策略表现能够有效支持目标任务的执行。关于 Flow Matching可以看作是 diffusion 的一种变体。Flow Matching 主要是学习如何从一个噪声分布数据流行到目标分布数据流行之间的 flow。Pi0.5推理时使模型也具有动作专家模型首先生成机器人要执行的高级子任务然后根据此子任务通过动作专家预测低级动作。相较于 Pi0有哪些区别Pi0.5 将 state 的 token 同 prompt 的 token 一同输入给 llm代码复现代码除了 openpi 还有 lerobot但是目前并没有一份真正从 0 开始的简单的复现记录甚至有人会将此复现过程作为有偿项目之后我会整理一份尽可能易上手的记录出来pi0.63. SmolVLASmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics轻量高效的视觉 - 语言 - 动作模型让机器人更智能、更亲民现有的 VLAs 虽然功能强大但通常拥有数十亿参数训练和部署成本高昂难以在资源有限的设备上运行。此外这些模型往往依赖于学术界和工业界的大规模专有数据集忽视了社区贡献的低成本机器人平台数据的潜力。SmolVLA的诞生正是为了解决这些问题。它是一个轻量、高效且完全开源的 VLA 模型能够在单块 GPU 上训练并在消费级硬件甚至 CPU上高效运行。通过创新的架构设计和异步推理技术SmolVLA 在保持竞争力的同时显著降低了计算成本。更重要的是它充分利用了社区贡献的多样化数据集展示了小而美的模型如何在机器人任务中表现出色。开源了 SmolVLA-450M 模型它具备以下特点足够小可以在 CPU 上运行单个消费级 GPU 上训练甚至可以在 MacBook 上运行训练使用的是公开的、社区共享的机器人数据发布时附带完整的训练和推理方案可以在非常经济的硬件上进行测试和部署如 SO-100、SO-101、LeKiwi 等SmolVLA 先在通用的操控数据上进行预训练随后进行特定任务的后训练。在架构上它将Transformer 与流匹配解码器相结合并通过以下设计选择优化速度和低延迟推理跳过视觉模型的一半层提升推理速度和减小模型尺寸交替使用自注意力和交叉注意力模块使用更少的视觉标记利用更小的预训练视觉 - 语言模型VLM并且引入了异步推理堆栈将机器人执行动作的方式与理解它们所看到和所听到的内容分开。由于这种分离机器人可以在快速变化的环境中更快速地响应。SmolVLA 以多个摄像头拍摄的 RGB 图像序列、机器人当前的传感运动状态以及自然语言指令为输入。VLM 将这些信息编码为上下文特征这些特征为动作专家提供条件生成连续的动作序列。使用 SmolVLM2 作为 VLM 主干经过优化它能够处理多图像输入并包含一个 SigLIP 视觉编码器和一个 SmolLM2 语言解码器。解码器层处理连接的图像、语言和状态标记。得到的特征随后传递给动作专家。这里的动作专家就是一个 Flow Matching TransformerSmolVLA 的动作专家是一个轻量 Transformer约 1 亿参数它能基于视觉语言模型VLM的输出生成未来机器人动作序列块action chunks。它是采用流匹配目标进行训练的通过引导噪声样本回归真实数据分布来学习动作生成。与离散动作表示例如通过标记化强大但通常需要自回归解码、推理时速度较慢不同流匹配允许直接、非自回归预测连续动作从而实现高精度的实时控制。在训练时将随机噪声添加到机器人的真实动作序列中并要求模型预测将其修正回正确轨迹的修正向量。这在动作空间上形成了一个平滑的向量场帮助模型学习准确且稳定的控制策略。以上算是对 SmolVLA 的一个大致的介绍下面详细分析一下 SmolVLA 的架构和训练方法。上面也提到过SmolVLA 应用了三项关键技术减少视觉标记的数量、跳过 VLM 中的高层以及在动作专家中交替使用交叉注意力和自注意力层。视觉标记减少SmolVLA 在训练和推理过程中每帧限制视觉标记数量为 64。例如一个 512x512 的图像被压缩成仅 64 个标记而不是 1024 个使用PixelShuffle作为高效的重排技术。虽然底层的视觉 - 语言模型VLM最初使用图像平铺技术进行预训练以获得更广泛的覆盖但SmolVLA 在运行时仅使用全局图像以保持推理的轻量化和快速性。这里提到的图像平铺技术image tiling是什么呢图像平铺技术image tiling在视觉语言模型及视觉语言动作模型例如 SmolVLA 的训练阶段中是一种常见手段用于提升高分辨率图像处理时的模型性能和细节覆盖尤其适用于小物体检测或文档理解等任务。具体来说将图像分割为多个小 patch/tiles将大图切成多个固定尺寸的小块例如 448x448 或 512x512 像素每一块单独处理。这样小对象在每块中相对尺寸被放大便于模型学习和检测。每个 tile 可以独立输入视觉编码器得到 token然后统一合并进入语言模型。支持训练和推理在训练过程中模型学习识别每个 tile 里的视觉特征。在推理阶段如果使用 tiling还需把图像切块分别推理再将输出拼接回全图比如目标检测中预测物体位置时常用这种流程。trade-off准确度 vs 性能优点更好捕捉小物体及局部细节缺点需要处理更多 patches处理开销和推理延迟增加。PixelShufflePixelShuffle 实际上是将每个像素的位置扩展为 upscale_factor × upscale_factor 的块从而实现图像的放大。其中 upscale_factor 是图像放大的倍数。https://zhuanlan.zhihu.com/p/719842764UniVLAUniVLA: Unified Vision-Language-Action Model.A general-purpose VLA Model designed to unify vision, language, and action for robotics and autonomous driving.Bridge perception and actionBridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalizationhttps://arxiv.org/pdf/2506.061966. RTC: Real-Time Action Chunking with Large ModelsPaper: https://arxiv.org/abs/2506.07339Code: https://github.com/Physical-Intelligence/real-time-chunking-kinetix官网https://www.pi.website/research/real_time_chunking可以划火柴点燃蜡烛有点牛的Real-Time Chunking via Inpainting有一个用于修复改善跨块连续性的 Soft-Mask考虑是推理延迟的问题将推理延迟中执行的动作冻结并给予完整的引导权重 1 关注。剩余的上一次推理的动作则以指数递减的引导权重关注。假设上一次推理得到 T 步动作执行前 1/4T 步开始执行新一次推理但是由于推理延迟又要保证动作的连贯性动作仍在执行假设又执行了 1/4T~2/4T 步那么在新一次推理时要将 1/4T~2/4T 的动作冻结以完整的引导权重 1 关注也就是在新一次推理的结果中的前 1/4T 动作是冻结的然后上一次推理的后面 2/4T~4/4T 的动作以指数递减的引导权重关注这样新一次推理中的最后 3/4T~4/4T 完全是重新生成的。6*. Training RTC7. Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic AlignmentPaper: https://arxiv.org/abs/2511.04555Code:Evo-1 是一种轻量级的 VLA 模型Evo-1 基于原生多模态视觉语言模型结合了新型交叉调制 diffusion transformer 与优化集成模型构建了一个高效的架构。还进一步引入了一种两阶段训练范式逐步将动作与感知对齐保持 VLM 的表征。8. HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action ModelPaperhttps://arxiv.org/abs/2503.10631Projecthttps://hybrid-vla.github.io/Codehttps://github.com/PKU-HMI-Lab/Hybrid-VLA这篇论文提出了一种融合扩散模型和自回归的统一 VLA 模型。传统自回归ARRT-2/OpenVLA方法为了将动作作为 token 用 LLM 去预测将动作离散化破坏了动作连续性扩散方法DiffusionCogACT/DiVLA能预测连续动作但扩散头独立于 LLM仅用 LLM 提取的特征作为输入未充分利用的 token 级推理能力设计一种方法协同 AR 和 Diffusion从而兼顾两者的优点同时充分利用 LLM。核心问题如何在单一模型中无缝融合两者优势而非简单拼接HybirdVLA 提出了协作式统一框架关键思想是在同一个 LLM 中同时进行扩散去噪和自回归 token 预测。如上图所示无论模态如何输入数据都会被编码并连接成格式化的 token 序列。为了将扩散模型集成到 LLM 中HybirdVLA 同时将降噪时间步和噪声动作投影到 token 序列中。标记 token , (扩散开始) 和(扩散结束)旨在连接两种生成方法。通过协作训练显式地将两种生成生成方法地知识纳入其中这两种动作类型相互增强并自适应地进行集成以控制机械臂。对于 HybirdVLA 的输出连续动作通过迭代降噪生成而离散动作则通过自回归生成所有操作都在下一个 token 预测过程中完成。关键设计特殊标记像括号一样包裹着扩散 token隔离两种生成范式扩散 token将噪声样本和去噪时间步编码为连续向量自回归 token量化后的离散动作 token模型架构Backbone:Vision Encoder: DINOv2(语义特征) SigLIP(细粒度特征)7B 版本用 DINOv2SigLIP 提取多模态特征2.7B 版本用 CLIP支持单视图/多视图输入。Prompt Encoder: LLAMA-2(7B) / Phi-2(2.7B)整体 Token 序列结构视觉 token | 语言 token | 机器人状态 | | 扩散 token | | 自回归 token协作动作集成机制Collaborative Action Ensemble:两种范式各有专长扩散擅长精细操作自回归擅长语义推理。推理时同时生成两种动作扩散动作和自回归动作然后计算自回归 token 的平均置信度 c^{ar}如果 c^{ar} 0.96认为自回归预测可靠执行(ada{ar})/2否则仅使用扩散动作 a^d这相当于用自回归的自信度作为指挥决定何时让两位专家合作。编码后V.L.R插入一个特殊的扩散开始 token 与掩码:Input Tokens [V_1, …, V_N]{视觉} ⊕ [L_1, …, L_M]{语言} ⊕ [R]_{机器人状态} ⊕ ⟨BOD⟩ ⊕ ⟨MASK⟩然后进行扩散 token 预测使用得到的 token 进行去噪得到扩散动作 a^da^d a^0 [Δx, Δy, Δz, Roll, Pitch, Yaw, Gripper(0/1)]对得到的扩散动作 a^d重新使用 MLP 映射回 LLM得到 e_{a^d}插入特殊的扩散结束 token重构得到序列[V][L][R][⟨BOD⟩][e_{a^d}][⟨EOD⟩][⟨MASK⟩]基于新序列预测 AR token再经过 Detokenizer得到动作 a^{ar}动作离散到 256 个动作区间概率值计算 AR 动作置信度 c^{ar}:c^{ar} \frac{1}{7} \sum_{k1}^{7} \max(p(A_k))根据置信度判断是要融合 AR 动作与扩散动作还是直接使用扩散动作a_{\text{final}} \begin{cases} 0.5 a^d 0.5 a^{ar}, \text{if } c^{ar} 0.96 \ a^d, \text{otherwise} \end{cases}协作训练策略混合损失函数同时优化扩散损失MSE 损失拟合噪声预测和自回归损失交叉熵损失优化离散 token 预测分阶段训练大规模预训练在 760k 条轨迹33M 帧的跨本体数据集Open-X-Embodiment, DROID, ROBOMIND) 上训练 5 epoch让模型吸收通用操纵知识。下游微调在自建的单臂/双臂任务数据上微调。机器人状态嵌入通过 MLP 将机器人状态直接映射到嵌入空间增强动作生成的时间一致性避免离散化带来的精度损失。混合目标函数扩散损失L_{dif} E_{a,i,c}|| ε - ε_{π}(a^i_t, i, c)||^2 , where \ ε ∼ N(0, 1), 预测噪声的 MSE自回归损失L_{ce}, token 预测的交叉熵 cross-entropy总损失L_{hybird} L_{dif} L_{ce}在这篇文章中通过消融实验说明了 VLM 在大规模机器人数据熵预训练至关重要。关键洞察与技术细节推理速度优化KV Cache复用条件 token 的 key/value使 HybirdVLA-dif 达到 9.4HZ接近π_0 的 13.8HZKV 缓存加速DDIM 步数仅需 4 步去噪即可保持性能远低于传统扩散的 30-50 步。9. DepthVLABehavior Challenge第一名与第二名都是在 pi0.5 的基础上做了一些改动10. Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge11. Openpi Comet: Competition Solution For 2025 BEHAVIOR ChallengePaper: https://arxiv.org/pdf/2512.10071Code: https://github.com/mli0603/openpi-comet12. AdaMoE-VLAExpertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning13. CoT-VLAPaperhttps://arxiv.org/pdf/2503.22020v114. SkillVLAhttps://arxiv.org/pdf/2603.0383615. XVLASoft Prompt 机制与其在模型末端区分不同机器人不如在输入端就让模型知晓它正在处理哪个域(Domain) 的数据。实现方式为每一个异构域例如一种特定的机器人设置分配一组可学习的令牌 (Learnable Tokens)即 Soft Prompt。这些 Soft Prompt 与图像、语言等输入数据一起在模型的最早期就输入到主干网络中。模型架构与训练技巧动作空间对齐将所有动作数据统一标准化训练时关节用 MSE夹爪用 BCE 损失意图抽象原始数据采集频率过高如 30HZ导致动作序列包含大量噪声和冗余信息。对动作序列进行降采样让模型预测未来一段时间如 4 秒的关键帧轨迹例如输出 30 个锚点 anchor points而不是预测下一个瞬间的动作。效果过滤了噪声让模型学习更宏观的动作意图。定制化学习率在使用预训练的 vlm 作为 base 时机器人动作数据可能会污染 vlm 原有的通用知识导致灾难性遗忘。因此为 vlm 主干网络设置一个非常小的学习率而模型的其他部分使用正常的学习率。这样就有效保留了 vlm 的通用推理能力防止其在机器人任务上过拟合。非对称视觉输入机器人通常有多个视角手腕视角充满噪声和剧烈运动如果与语言指令一起输入 VLM会增加学习负担。为此将主视角图像和语言指令一起输入完整的 vlm用于理解任务而手腕视角只通过 vit 提取特征不与语言进行深度交互主要用于抓取前的精确定位。减轻了模型的学习负担提高了效率与稳定性。简化的动作解码器作者发现对于生成低维的动作序列复杂的 DiT 结构不仅计算量大效果也未必好。因此作者采用了一个非常朴素的 transformer encoder 作为主干网络结构简单且易于扩展。16. ACoTVLAhttps://arxiv.org/pdf/2601.11404动作思维链粗动作意图 coarse action intentsAction-Guided PredictionDual cross-attention:S{ex}CrossAttn(Q_{action},Z{ex},Z^{ex})S^{im} CrossAttn(A_{action},Z{im},Z{im})显式先验提供运动学线索隐性先验则捕捉潜在动作倾向17. RLThttps://www.pi.website/research/rltRLT(RL Token)把 VLA 和在线 RL 衔接起来用少量参数和少量数据就能实现高效的策略优化。整个方法分为两个阶段适应阶段在少量任务相关的示教数据上训练一个轻量级的编码器 - 解码器模块同时暴露出一个紧凑的 RL Token。这个 token 压缩了 VLA 内部丰富的视觉 - 语言 - 动作表征专门为后续 RL 设计。在线 RL 阶段冻结 VLA 和 RL Token 模块只训练一个小的 actor-critic 网络。这个网络以 RL token 为输入同时接收 VLA 生成的参考动作在参考动作的基础上做局部优化。于是RL 只需要在一个紧凑的表征空间里学习而不是直接操作几十亿参数的完整模型。整个在线训练只需要几分钟到几小时的机器人交互数据。RL Token 的提取RL Token 是整个方法的基础RLT 在 VLA 的基础上增加了一个编码器 - 解码器结构编码器从 VLA 的 transformer 中间层取出 M 个 token实验中 M36(其实是 vlm 部分的最后一层)每个维度是 2048.编码器是一个轻量级的 transformer把这些 token 压缩成一个 2048 维的 RL Token浓缩任务核心信息。输入是 z_{1:M} {z_1,…,z_M} 并添加一个可学习的嵌入 e_{rl}得到一个增强的序列[z_{1:M},e_{rl}]将这个增强的序列经过编码器在这个过程中 e_{rl} 会通过注意力机制与 z_{1:M} 中的每一个元素进行融合于是在第 M1 个位置即 e_{rl} 的位置可以得到 z_{rl}g_{φ}([z_{1:M},e_{rl}]){M1}这里的 z{rl} 就是 RL Token它充分融合了 vla 从整个动作序列的不同时刻的状态、文本指令中得到的信息解码器接收 RL token 和前 i-1 个重建目标自回归地重建原始的 M 个 token。训练时的损失函数是重建误差L_{ro} E_D [∑_{i1}^{M} || h_{φ}(d_{φ}([z_{rl}, z̄_{1:i-1}]))_i - z̄_i ||^2]d_{φ} 是 transformer 解码器然后经过一个线性投影 h_{φ}这个自回归重建目标强迫 RL token 保留足够的信息还原 VLA 的内部状态同时又足够紧凑只有 2048 维供小网络学习。整个 RL token 模块只有约 10M 的参数相比 VLA 的 5B 参数可以忽略不计。Actor-Critic 网络在线 RL 阶段RLT 训练两个轻量网络CriticQ_{ψ}(x,a_{1:C}) 估计状态 - 动作对的价值输入是 RL token 和本体感觉状态组成的 x(z_{rl},s_p) 以及一个动作块 a_{1:C}输出标量价值。训练使用标准的 TD 学习L_Q E_{(x, a_{1:C}, x’) ∼ B} [(Q̂ - Q_{ψ}(x, a_{1:C}))^2],其中 TD 目标是Q̂ ∑_{t’1}^{C} γ^{t’-1} r_{t’} γ^{C} E_{a’ ∼ π_{θ}} [Q_{ψ’}(x’, a’)].这里使用了一个稀疏奖励函数对于一个 episode若最后一步成功则最后一步的奖励为 1否则最后一步奖励为 0.除最后一步 tT 之外的所有 r_t 都为 0.Actor网络 π_{θ}(a_{1:C} | x, ã_{1:C}) 输出高斯分布的动作但关键之处在于它的条件输入它不仅接收当前状态 x还接收 VLA 生成的参考动作块 ã_{1:C}π_{θ}(a_{1:C} | x, ã_{1:C}) N(μ_{θ}(x, ã_{1:C}), σ²I)通过对 ã 进行条件处理actor 能够直接接触到 VLA 预测的动作从而使在线 RL 精炼一个强有力的初始方案而不是从零开始学习。第二个好处是采样的参考片段保留了 VLA 的多模态动作分布中的模式信息否则单模态高斯 actor 将难以恢复。作者通过将其动作正则化向参考动作进一步稳定学习。具体来说作者优化 actor 以在接近 VLA 参考片段 ã 的同时最大化 critic value其精神类似于 KL 正则化的 RL 方法。具体是 RLT 引入了一个简单的正则化项L_{π}(θ) E_{s ∼ B, a_{1:C} ∼ π_{θ}} [-Q_{ψ}(x, a_{1:C}) β || a_{1:C} - ã_{1:C} ||2^2].ã{1:C} ∼ π_{vla}(· | s, ℓ)第一项最大化 Critic 估计的价值第二项惩罚与参考动作的偏离其中 β 控制 actor 受正则向采样的 vla action 的强度β大时策略保守地跟随 VLAβ小时策略可以更激进地探索更好的动作。然而actor 网络可能会学习到直接复制参考动作片段的内容这在早期 critic 网络没有学习到准确的 Q 值时尤其容易发生。为了防止这种情况本文使用了参考动作 dropout 的策略在每一个训练批次中随机挑选一部分样本将它们的 ã_{1:C} 变为全 0再输入到 actor 网络。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2478261.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！