VLANeXt: VLA终极配方，12个维度从零构建高性能VLA-- 2026.2.20 -- 开源

news2026/3/18 0:01:25

0. 前言看过非常多的VLA但是对于其包含的结构和模块并不清晰其中到底哪个对VLA性能影响最大也有待研究所以来看看这篇。论文页项目页article{wu2026vlanext,title{VLANeXt: RecipesforBuilding Strong VLA Models},author{Xiao-Ming Wu and Bin Fan and Kang Liao and Jian-Jian Jiang and Runze Yang and Yihang Luo and Zhonghua Wu and Wei-Shi Zheng and Chen Change Loy},journal{arXiv preprint arXiv:2602.18532},year{2026},}1. 简要介绍1.1 提出问题随着大型 foundation models 的兴起视觉—语言—动作模型VLA应运而生它们利用强大的视觉与语言理解能力来进行通用的策略学习利用大型视觉—语言骨干网络将视觉观测和语言指令直接映射为机器人动作。通过继承基础模型所具备的丰富视觉理解与语言对齐能力VLA 为实现通用的、以语言为条件的机器人策略提供了一条可扩展的路径Ma 等2024Ravichandar 等2020Xiao 等2025c。自从 VLA 概念出现以来Zitkovich 等2023学术界和工业界提出了大量模型这些模型在多样化任务上展现了强劲的性能并鼓舞了泛化能力的研究Zitkovich 等2023O’Neill 等2024Li 等2023、2024Kim 等2024a、2025Black 等2024Team 等2025Hung 等2025Shukor 等2025Intelligence 等2025Liu 等2026。大多数 VLA 方法基于预训练的 LLM大型语言模型或 VLM视觉—语言模型将视觉观测与语言指令一并处理以得到对动作学习有用的表征。这一流程引入了许多设计选择包括如何将 VLM 与策略模块接口对接、如何训练策略、如何选择关键的感知输入以及动作应如何表示与建模。然而尽管进展迅速但 VLA 的早期探索仍像一锅“原始汤”——创意丰富但缺乏清晰的结构化体系处于探索阶段。虽然已有工作从若干角度探讨了 VLA 设计Zhen 等2024Qu 等2025Zhang 等2025cCen 等2025bZhang 等2025b、dLu 等2025但训练协议和评测设置的不一致使得很难判断哪些设计选择是真正关键的。1.2 解决问题为了给这个不断演进的领域带来结构性梳理作者在统一的框架和评测设置下重新审视了VLA 的设计空间。从一个类似 RT-2 和 OpenVLA 的简单 VLA 基线出发沿着三个维度系统地剖析设计选择基础组件涵盖核心的 VLM—策略架构与动作学习目标感知要点考察视觉、语言与本体感觉proprioceptive输入的作用动作建模视角研究有助于动作生成的设计与辅助目标。通过这项研究作者提炼出12 条关键结论这些结论合起来形成了一套构建强大 VLA 模型的实用“配方”。作者强调若干对领域尤其值得注意的发现在 VLM 与策略模块之间采用“软连接”soft connection比“松耦合”与“紧耦合”两种策略都有略优表现在 VLM 中对本体感觉proprioceptive输入进行条件化比完全省略本体感觉或直接把本体感觉注入策略模块表现更好把动作生成表述为时间序列预测问题并引入频域建模是提升动作预测的有效而高效的方法。这次探索的产出是一个简单但有效的模型VLANeXt它直接源自作者系统探索中发现的设计原则。。VLANeXt 在 LIBERO 和 LIBERO-plus 基准上优于先前的最先进方法并在真实世界实验中展示了良好的泛化能力。这些结果表明在统一框架下基于原则性的设计选择就能获得强劲的 VLA 性能。作者将发布一个统一且易用的代码库作为社区的通用平台该框架刻意设计得轻量且最小封装便于复现作者的发现、探索设计空间并在共享的基础上构建新的 VLA 变体。2. 构建强大 VLA 模型的“配方”在本节中详细说明从一个简单基线逐步演化到最终模型 VLANeXt的全过程。把探索工作沿三条主线组织基础组件第 2.1 节、感知要点第 2.2 节和动作建模视角第 2.3 节。总览见图 2完整结果列在表 1 中。评测设置在 LIBERO 与 LIBERO-plusLiu 等2023Fei 等2025b上进行这套路线图式探索。大多数实验在 spatial 套件作为主要测试上完成但所得结论也能推广到其他套件Object、Goal 与 Long。基线遵循了 RT-2Zitkovich 等2023提出的 VLA 流程随后被 OpenVLAKim 等2024a采用。采用 LLaMA 作为语言骨干Grattafiori 等2024并配以 SigLIP2 作为视觉编码器因为LLaMA 本身不原生支持视觉输入。把一部分较少使用的文本 token 重新用于表示动作 token从而在相同的自回归框架内进行动作预测。连续动作通过简单的分箱binning策略离散化并作为对箱索引的分类来建模。作者有意从这种最小化、经典的 VLA 风格设置出发以提供一个干净的参考基线用来分析不同设计选择的影响。作者的实现采用了更新的 LLaMA 版本LLaMA 3.2但规模更小3B 参数相较于 OpenVLA 中使用的 7B。2.1 Foundational 组件本节考察 VLA 的若干核心设计选择包括模型架构与训练损失。策略模块设计基线遵循 RT-2Zitkovich 等2023和 OpenVLAKim 等2024a在其中复用文本 token 来做动作分类。首先检验是否需要一个显式的策略头policy head。“策略头”指单独的网络模块用于把通用表征映射到动作输出问题是直接复用语言 token 是否足够或是否需要专门的动作解码器。为此在文本与视觉嵌入后附加一个 class token并把该 token 经 LLM 输出后送入一个两层的策略头Transformer 架构用于动作分类见图 3(a)(b)。结果表明引入独立的策略头相较于直接复用文本 token表现略优表 1说明将动作预测从语言 token 空间中解耦是有益的。进一步研究更具表现力的策略模块是否能带来额外收益。具体地我们将单个 class token 替换为多个 token16 个并把策略网络从 2 层扩展到 12 层从概念上使设计类似于 MetaQueryPan 等2025见图 3©。这个扩展后的策略模块显著提升了性能表 1。最终模型采用了此设计。动作分块Action Chunking我们的基线逐步预测单步动作。此处评估动作分块同时预测多个未来动作该方法已知能提升推理效率Kim 等2025。结果显示更长的分块时域chunk horizon一贯提升动作生成性能表 1表明建模更长的时间窗口能提供更连贯的动作序列视角。因此采用了chunk size 为 8的动作分块策略。动作学习目标一个动作分块是形状为 (t, dim) 的连续向量。t 表示时间步数chunk 大小dim 表示每步动作的维度例如关节角度、末端位姿等。基线按 OpenVLAKim 等2024a做法把该向量先归一化到 −1 到 1然后用分箱256 个箱离散化并把动作预测视为分类问题。作者将其与若干替代目标比较包括直接回归Kim 等2025、基于扩散的损失如 DDIMSong 等2021Zhang 等2025c、flow-matchingLipman 等2021Lv 等2025以及基于 VQ–VAE 的码本分类码本大小 1024每个动作分配 3 个 codesVan Den Oord 等2017Esser 等2021。结果表明回归取得了最强的性能其次是基于扩散的目标而基于分类的方法表现最差表 1。这很可能反映了基准中动作分布近似高斯的特性因此更偏好连续建模。因此采用了 flow-matching目标它在保持强性能的同时也适合应对更复杂或多模态的动作分布。flow-matching 在连续生成建模上兼顾表达力与训练稳定性是一种面向更广泛动作分布的折中选择。作者还观察到使用基于VQ–VAE 的码本做分类在性能上落后于简单的分箱策略将此归因于动作空间的低秩特性——也就是说简单的分箱已能提供足够的分辨率。VLM 骨干能力基线以 LLaMA 作为骨干Grattafiori 等2024。评估了备选的 VLM 骨干以研究骨干能力如何影响 VLA 性能其中包括 PaliGemma-3BBeyer 等2024被用于 π 系列Black 等2024Intelligence 等2025b以及代表目前一些最强开源 VLM 的 Qwen-VL 家族Bai 等2025a。结果呈现一致趋势更强的 VLM 骨干带来更好的 VLA 表现表 1。其中 Qwen3-VL-4B 优于 Qwen3-VL-2B后者又优于 LLaMA-3.2-3B 与 PaliGemma-3B。在后续实验中选用 Qwen3-VL-2B 作为一个兼顾性能与效率的选择。这一发现与Zhang 等2026不同。可能的原因是作者更大的策略模块能更好地利用更强VLM 的表征能力而Zhang 等2026中较轻量的策略头可能限制了这种增益。对此更深入的调查留待未来工作。VLM—策略连接接下来研究 VLM 与策略模块之间不同连接策略如何影响性能。基线采用了如“策略模块设计”中所述的MetaQuery 风格设计。把这种设计称为“松策略”在此 VLM 与策略模块完全解耦。通常意味着 VLM 输出固定表征策略模块单独读取并解码不进行逐层交互或共享内部状态。作者将其与一种紧耦合策略比较——该策略按层连接两个模块如 π 系列所采用。紧耦合通过跨层交互把 VLM 的中间表征直接注入策略网络可能带来更细粒度的信息传递但也增加耦合复杂度。受这两种设计启发作者提出了“软策略”——它同样按层连接两模块但在模块之间插入可学习的queries 作为潜在缓冲见图 4。结果显示软策略略微优于松耦合与紧耦合表 1表明可学习的 query 缓冲有助于更好地将 VLM 中有用的表征传递给策略模块。这可以视作在两个组件之间引入一个潜在缓冲区类似于在潜在空间中进行推理Hao 等2024。我们在后续模型中采用了软连接。2.2 感知要点本小节聚焦于感知层面的设计选择哪些模态如视觉观测、本体感觉等应当作为 VLA 的输入以及如何提供这些输入。时序观测历史作者检验纳入历史观测temporal observation history是否能提升性能。有些系统会把若干帧的历史影像当作输入来捕捉运动信息或短期因果关系但历史信息也可能带来冗余或噪声。基线遵循 OpenVLAKim 等2024a只使用当前帧作为输入。作者将其扩展为包含多帧过去的影像利用 Qwen3-VL-2BBai 等2025b的多帧/视频能力以做受控比较。结果显示加入时序历史并未提升动作生成效果反而略微降低了性能表 1表明冗余的时序输入可能带来噪声或分散模型注意力。相机视角范围Camera View Horizon研究相机视点对 VLA 性能的影响。相机的数量、放置位置与视角直接决定视觉信息的几何覆盖与可辨识性进而影响空间推理与动作规划。基线采用单个第三视角third-person view仍沿用 OpenVLA 的做法。许多机器人数据集O’Neill 等2024Khazatsky 等2024额外提供了手持腕部相机wrist camera便于比较单视角与多视角输入的差异。结果表明把第三视角与腕部视角结合能显著提升性能表 1表明多视角观测提供了互补的几何线索有助于消解空间歧义。本体感觉Proprioception条件化作者考察本体感觉的作用——它提供机器人内部状态与运动历史的信息。基线沿用 OpenVLA没有使用本体感觉输入。有些基线选择纯视觉语言来简化输入接口但在控制精度和闭环可靠性上可能受限。比较了三种变体在 VLM 端进行条件化把 proprioception 作为VLM 输入、在策略模块端进行条件化把 proprioception注入 policy以及同时在两端进行条件化见图 5。具体来说在 VLM 部分把本体感觉作为输入而在策略部分我们使用动作作为输入以与生成的动作对齐。结果显示在VLM 端对本体感觉进行条件化效果最佳表 1。作者猜测在VLM 级别整合本体感觉能更好地与视觉和语言输入融合而直接把本体感觉注入策略模块可能会降低策略对视觉观测和指令的依赖从而影响表现。虽然这似乎与 Zhao 等2025a报告的结论不同其声称不需要本体感觉但他们的研究是在仅将本体感觉注入策略模块的架构上进行评估的。在那种设置下去掉本体感觉能提升性能这与作者的发现是一致的因为他们只在 policy 端注入。作者进一步比较了三种不同的集成机制线性投影器linear projector、基于 Transformer 的投影器、以及带有掩蔽重构预训练masked reconstruction pretrainingHe 等2022的 Transformer 投影器。投影器负责把低层的本体感觉信号映射到与视觉-语言表征兼容的嵌入空间。Transformer 投影器表现略优表 1但为简洁起见我们在最终设计中采用线性投影器。2.3 动作建模视角在这里我们考察一些辅助的设计和训练目标以促进更好的动作生成。世界建模World Modelling作者评估用辅助的世界建模目标来增强动作预测Lv 等2025Cen 等2025b。为避免依赖预训练的图像生成器使用 Emu3.5 将图像标记化并用next-token 目标来预测未来的图像 token。目标是固定时域8 步对齐动作分块长度的未来帧。视觉生成模块被插入到 VLM 与策略模块之间并采用逐层连接见图 6。该模块相当于一个中间任务网络既接收上游表征又向下游策略提供未来观测预测的监督信号。加入世界建模确实改善了动作生成性能表 1说明预测未来观测是有益的。然而该做法几乎使训练时间增加三倍大幅提升了计算开销。因此把世界建模从最终配方中剔除。时序预测Time Series Forecasting作者还从时序预测的角度探讨如何促进动作生成。受时序预测中频域建模的启发Zhou 等2022Yi 等2023Yang 等2024Wang 等2025a作者引入一个简单的辅助损失在频域上最小化预测动作与真实动作的 MSE相对于 flow-matching 损失的加权系数为 0.1–0.2。在频域上对齐能鼓励模型在整体频谱特性如平滑性、周期性上匹配真实动作从而改善轨迹连贯性与噪声抑制。使用离散余弦变换DCTAhmed 等1974将动作转换到频域。该策略提升了动作生成性能略优于世界建模目标同时几乎不增加训练开销表 1。产生增益的原因很可能是机器人动作序列具有结构性和低秩性因此适合用频域建模。2.4 配方总结从经典的 RT-2/OpenVLA 风格基线出发发现强劲的 VLA 性能来源于一系列有原则的设计选择。有益的改动包括用更深、专用的策略模块替代简单的 token 复用采用动作分块以建模更长的时间窗口使用连续目标如 flow-matching且对于简单分布回归也有效采用更强的 VLM 骨干以 Qwen3-VL-2B 作为兼顾效率与性能的选择以及通过带可学习 query 缓冲的软式逐层交互连接 VLM 与策略模块。在感知方面采用多视角输入第三视角腕视角在VLM 端做本体state条件化能提升性能而冗余的时序观测历史并非必要。此外加入一个轻量的频域辅助损失能够以几乎可忽略的代价进一步提升动作生成效果。虽然世界建模也能提升性能但其显著增加的训练成本使其在实践中不太实用。综上这些选择共同构成了一套构建强健且高效 VLA 模型的实用配方我们将其称为 VLANeXt。3. 基准评估3.1 Settings为了评估标准性能和泛化鲁棒性使用了 LIBERO 生态系统。首先在标准 LIBERO 基准Liu 等2023上评估了 VLANeXt该基准包含四个不同类别Spatial、Object、Goal 和 Long用于测试任务学习能力每个子集提供 10 个任务、每个任务约 500 条专家示范用来评估策略对不同空间布局、物体、目标和长时序任务的泛化能力。为了进一步测试模型的泛化边界在LIBERO-plusFei 等2025b上评估了作者的方法。与标准 LIBERO 的静态条件不同LIBERO-plus 对评测集进行了系统性变化共包含 10,030 条示范覆盖前述四个子集并在视觉如光照、背景、相机位姿、物理如物体布局、机器人状态和语义如语言指令改写维度上引入扰动。遵循 OpenVLAKim 等2024a中的标准设置针对每个子集Spatial、Object、Goal、Long在修改后的 LIBERO 数据集上训练模型并在对应子集的 LIBERO 与包含未见扰动的 LIBERO-plus 上评估性能。为了在不同设计选择间进行公平比较我们把所有模型都直接在 LIBERO 数据集上进行微调fine-tune。配方中的所有实验均使用 10,000 次训练步、批量大小 256。学习率对小于 3B 参数的模型设为1 × 10 − 4 1×10^{−4}1×10−4否则设为5 × 10 − 5 5×10^{−5}5×10−5。3.2 LIBERO 基准结果在 LIBERO 基准上作者将方法与两类方法进行比较i仅在机器人数据集上训练的直接策略学习方法ii利用预训练 VLM 知识进行策略学习的 VLA 方法。在直接策略学习方法中包含了 Diffusion PolicyChi 等2025、OctoGhosh 等2024和 MDTReuss 等2024。在 VLA 方法中与 OpenVLAKim 等2024a、TraceVLAZheng 等2025、SpatialVLAQu 等2025、WorldVLACen 等2025b、CoT-VLAZhao 等2025b、π0Black 等2024、π0-FastPertsch 等2025、NORAHung 等2025、SmolVLAShukor 等2025、UniVLAWang 等2025d、FLOWERReuss 等2025以及 OpenVLA-OFTKim 等2025进行了比较。比较结果列于表 2。可以看到按照作者的配方构建的 VLA 表现强劲并达到了最先进水平这证明了这些设计选择的有效性。3.3 LIBERO-plus 基准结果在 LIBERO-plus 基准上我们将模型与多种 VLA 方法进行比较包括 OpenVLAKim 等2024a、WorldVLACen 等2025b、NORAHung 等2025、UniVLAWang 等2025d、π0Black 等2024、π0-FastPertsch 等2025及 OpenVLA-OFTKim 等2025。如表 3 所示所提 VLANeXt 在对抗不同类型未见扰动时展现了强大的泛化能力。此外与既有方法相比模型在 LIBERO-plus 基准上较最先进方法 OpenVLA-OFTKim 等2025取得了显著提升成功率提高约 10%这进一步表明所探索的配方是有效的。4. 真实世界评估本章旨在把实验从仿真搬到真实机器人上检验模型在现实操作场景中的可靠性与可部署性。为了全面评估作者方法的性能还在真实环境中进行了部署评测。4.1 设置本小节描述真实世界实验的任务、平台、数据收集与训练细节。设计了四个任务两个单臂任务和两个双臂双手任务用以评估方法表现。单臂任务包括桌面清理把桌面物体拾起并放入容器和抽屉操作打开抽屉、放入物体并关闭。双臂任务包括篮子抬举双手共同抬起一个篮子和双臂桌面清理两臂协同将桌面物体收集并放入容器。单臂实验使用 Franka Emika而双臂实验在 Aloha system 上进行。每个任务的实验布局示意见图 8。在训练环节为每个任务收集50 条示范episodes并对每个模型进行20 次试验来报告成功率。先在DROID 上进行 100k 步的预训练然后以学习率1 × 10 − 4 1×10^{−4}1×10−4在每个任务上再微调 20k 步。因为 DROID仅包含单臂数据故要把模型适配到双臂任务需要重新初始化 proprioception 的投影器以及动作生成模块的最后一层同时保留其它预训练权重。4.2 结果与两种具有代表性的 VLA 基线进行比较OpenVLA-OFT 和 π0。载入上述基线的预训练检查点并以与本方法相同的方式在每个任务上进行微调以确保公平比较。对比结果见表 4。如表所示所提出的方法在真实世界实验中表现良好表明我们的设计配方能产出可在真实场景中有效部署的强 VLA 模型即 VLANeXt。此外即便没有专门的双臂训练我们的方法也能以不错的性能适配双臂任务展现了方法在不同 embodiment 间的可迁移性。在补充材料中提供了实验结果的更多视频演示。5. 结论本工作朝着对 VLA 模型更系统化的理解迈进。与其再提出一个独立的架构我们回顾并规范化了 VLA 流程展示出许多性能提升来自于统一框架下的有原则设计选择。特别地VLM 与策略模块如何交互、多模态信号例如本体感觉如何融合、以及动作的时间结构如何建模都是核心要素。若干观察具有更广泛的含义。适度的架构改进例如软式 VLM—策略耦合或在 VLM 侧对本体感觉做条件化能显著影响性能——这表明“在何处注入信息”与“注入什么信息”同样重要。将动作生成视为有结构的序列建模——例如引入频域目标——表明时序学习领域的思想可以有效迁移到机器人学。与此同时更“丰富”的目标比如世界建模确实能提升性能但会带来明显的计算开销这凸显了以效率为导向的设计重要性。作者希望本工作能促使社区从零散的模型变体转向对 VLA 设计空间更受控、更系统的探索。通过发布一个统一且轻量的框架作者旨在支持系统化研究与社区共享的进步。将这一视角推广到更多样的机体形态、更长时序的推理以及更丰富的与世界交互的目标是未来研究的重要方向。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2417131.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！