VLANeXt: VLA终极配方,12个维度从零构建高性能VLA-- 2026.2.20 -- 开源

news2026/3/18 0:01:25
0. 前言看过非常多的VLA但是对于其包含的结构和模块并不清晰其中到底哪个对VLA性能影响最大也有待研究所以来看看这篇。论文页项目页article{wu2026vlanext,title{VLANeXt: RecipesforBuilding Strong VLA Models},author{Xiao-Ming Wu and Bin Fan and Kang Liao and Jian-Jian Jiang and Runze Yang and Yihang Luo and Zhonghua Wu and Wei-Shi Zheng and Chen Change Loy},journal{arXiv preprint arXiv:2602.18532},year{2026},}1. 简要介绍1.1 提出问题随着大型 foundation models 的兴起视觉—语言—动作模型VLA应运而生它们利用强大的视觉与语言理解能力来进行通用的策略学习利用大型视觉—语言骨干网络将视觉观测和语言指令直接映射为机器人动作。通过继承基础模型所具备的丰富视觉理解与语言对齐能力VLA 为实现通用的、以语言为条件的机器人策略提供了一条可扩展的路径Ma 等2024Ravichandar 等2020Xiao 等2025c。自从 VLA 概念出现以来Zitkovich 等2023学术界和工业界提出了大量模型这些模型在多样化任务上展现了强劲的性能并鼓舞了泛化能力的研究Zitkovich 等2023O’Neill 等2024Li 等2023、2024Kim 等2024a、2025Black 等2024Team 等2025Hung 等2025Shukor 等2025Intelligence 等2025Liu 等2026。大多数 VLA 方法基于预训练的 LLM大型语言模型或 VLM视觉—语言模型将视觉观测与语言指令一并处理以得到对动作学习有用的表征。这一流程引入了许多设计选择包括如何将 VLM 与策略模块接口对接、如何训练策略、如何选择关键的感知输入以及动作应如何表示与建模。然而尽管进展迅速但 VLA 的早期探索仍像一锅“原始汤”——创意丰富但缺乏清晰的结构化体系处于探索阶段。虽然已有工作从若干角度探讨了 VLA 设计Zhen 等2024Qu 等2025Zhang 等2025cCen 等2025bZhang 等2025b、dLu 等2025但训练协议和评测设置的不一致使得很难判断哪些设计选择是真正关键的。1.2 解决问题为了给这个不断演进的领域带来结构性梳理作者在统一的框架和评测设置下重新审视了VLA 的设计空间。从一个类似 RT-2 和 OpenVLA 的简单 VLA 基线出发沿着三个维度系统地剖析设计选择基础组件涵盖核心的 VLM—策略 架构与动作学习目标感知要点考察视觉、语言与本体感觉proprioceptive输入的作用动作建模视角研究有助于动作生成的设计与辅助目标。通过这项研究作者提炼出12 条关键结论这些结论合起来形成了一套构建强大 VLA 模型的实用“配方”。作者强调若干对领域尤其值得注意的发现在 VLM 与策略模块之间采用“软连接”soft connection比“松耦合”与“紧耦合”两种策略都有略优表现在 VLM 中对本体感觉proprioceptive输入进行条件化比完全省略本体感觉或直接把本体感觉注入策略模块表现更好把动作生成表述为时间序列预测问题并引入频域建模是提升动作预测的有效而高效的方法。这次探索的产出是一个简单但有效的模型VLANeXt它直接源自作者系统探索中发现的设计原则。。VLANeXt 在 LIBERO 和 LIBERO-plus 基准上优于先前的最先进方法并在真实世界实验中展示了良好的泛化能力。这些结果表明在统一框架下基于原则性的设计选择就能获得强劲的 VLA 性能。作者将发布一个统一且易用的代码库作为社区的通用平台该框架刻意设计得轻量且最小封装便于复现作者的发现、探索设计空间并在共享的基础上构建新的 VLA 变体。2. 构建强大 VLA 模型的“配方”在本节中详细说明从一个简单基线逐步演化到最终模型 VLANeXt的全过程。把探索工作沿三条主线组织基础组件第 2.1 节、感知要点第 2.2 节和动作建模视角第 2.3 节。总览见图 2完整结果列在表 1 中。评测设置在 LIBERO 与 LIBERO-plusLiu 等2023Fei 等2025b上进行这套路线图式探索。大多数实验在 spatial 套件作为主要测试上完成但所得结论也能推广到其他套件Object、Goal 与 Long。基线遵循了 RT-2Zitkovich 等2023提出的 VLA 流程随后被 OpenVLAKim 等2024a采用。采用 LLaMA 作为语言骨干Grattafiori 等2024并配以 SigLIP2 作为视觉编码器因为LLaMA 本身不原生支持视觉输入。把一部分较少使用的文本 token 重新用于表示动作 token从而在相同的自回归框架内进行动作预测。连续动作通过简单的分箱binning策略离散化并作为对箱索引的分类来建模。作者有意从这种最小化、经典的 VLA 风格设置出发以提供一个干净的参考基线用来分析不同设计选择的影响。作者的实现采用了更新的 LLaMA 版本LLaMA 3.2但规模更小3B 参数相较于 OpenVLA 中使用的 7B。2.1 Foundational 组件本节考察 VLA 的若干核心设计选择包括模型架构与训练损失。策略模块设计基线遵循 RT-2Zitkovich 等2023和 OpenVLAKim 等2024a在其中复用文本 token 来做动作分类。首先检验是否需要一个显式的策略头policy head。“策略头”指单独的网络模块用于把通用表征映射到动作输出问题是直接复用语言 token 是否足够或是否需要专门的动作解码器。为此在文本与视觉嵌入后附加一个 class token并把该 token 经 LLM 输出后送入一个两层的策略头Transformer 架构用于动作分类见图 3(a)(b)。结果表明引入独立的策略头相较于直接复用文本 token表现略优表 1说明将动作预测从语言 token 空间中解耦是有益的。进一步研究更具表现力的策略模块是否能带来额外收益。具体地我们将单个 class token 替换为多个 token16 个并把策略网络从 2 层扩展到 12 层从概念上使设计类似于 MetaQueryPan 等2025见图 3©。这个扩展后的策略模块显著提升了性能表 1。最终模型采用了此设计。动作分块Action Chunking我们的基线逐步预测单步动作。此处评估动作分块同时预测多个未来动作该方法已知能提升推理效率Kim 等2025。结果显示更长的分块时域chunk horizon一贯提升动作生成性能表 1表明建模更长的时间窗口能提供更连贯的动作序列视角。因此采用了chunk size 为 8的动作分块策略。动作学习目标一个动作分块是形状为 (t, dim) 的连续向量。t 表示时间步数chunk 大小dim 表示每步动作的维度例如关节角度、末端位姿等。基线按 OpenVLAKim 等2024a做法把该向量先归一化到 −1 到 1然后用分箱256 个箱离散化并把动作预测视为分类问题。作者将其与若干替代目标比较包括直接回归Kim 等2025、基于扩散的损失如 DDIMSong 等2021Zhang 等2025c、flow-matchingLipman 等2021Lv 等2025以及基于 VQ–VAE 的码本分类码本大小 1024每个动作分配 3 个 codesVan Den Oord 等2017Esser 等2021。结果表明回归取得了最强的性能其次是基于扩散的目标而基于分类的方法表现最差表 1。这很可能反映了基准中动作分布近似高斯的特性因此更偏好连续建模。因此采用了 flow-matching目标它在保持强性能的同时也适合应对更复杂或多模态的动作分布。flow-matching 在连续生成建模上兼顾表达力与训练稳定性是一种面向更广泛动作分布的折中选择。作者还观察到使用基于VQ–VAE 的码本做分类在性能上落后于简单的分箱策略将此归因于动作空间的低秩特性——也就是说简单的分箱已能提供足够的分辨率。VLM 骨干能力基线以 LLaMA 作为骨干Grattafiori 等2024。评估了备选的 VLM 骨干以研究骨干能力如何影响 VLA 性能其中包括 PaliGemma-3BBeyer 等2024被用于 π 系列Black 等2024Intelligence 等2025b以及代表目前一些最强开源 VLM 的 Qwen-VL 家族Bai 等2025a。结果呈现一致趋势更强的 VLM 骨干带来更好的 VLA 表现表 1。其中 Qwen3-VL-4B 优于 Qwen3-VL-2B后者又优于 LLaMA-3.2-3B 与 PaliGemma-3B。在后续实验中选用 Qwen3-VL-2B 作为一个兼顾性能与效率的选择。这一发现与Zhang 等2026不同。可能的原因是作者更大的策略模块能更好地利用更强VLM 的表征能力而Zhang 等2026中较轻量的策略头可能限制了这种增益。对此更深入的调查留待未来工作。VLM—策略连接接下来研究 VLM 与策略模块之间不同连接策略如何影响性能。基线采用了如“策略模块设计”中所述的MetaQuery 风格设计。把这种设计称为“松策略”在此 VLM 与策略模块完全解耦。通常意味着 VLM 输出固定表征策略模块单独读取并解码不进行逐层交互或共享内部状态。作者将其与一种紧耦合策略比较——该策略按层连接两个模块如 π 系列所采用。紧耦合通过跨层交互把 VLM 的中间表征直接注入策略网络可能带来更细粒度的信息传递但也增加耦合复杂度。受这两种设计启发作者提出了“软策略”——它同样按层连接两模块但在模块之间插入可学习的queries 作为潜在缓冲见图 4。结果显示软策略略微优于松耦合与紧耦合表 1表明可学习的 query 缓冲有助于更好地将 VLM 中有用的表征传递给策略模块。这可以视作在两个组件之间引入一个潜在缓冲区类似于在潜在空间中进行推理Hao 等2024。我们在后续模型中采用了软连接。2.2 感知要点本小节聚焦于感知层面的设计选择哪些模态如视觉观测、本体感觉等应当作为 VLA 的输入以及如何提供这些输入。时序观测历史作者检验纳入历史观测temporal observation history是否能提升性能。有些系统会把若干帧的历史影像当作输入来捕捉运动信息或短期因果关系但历史信息也可能带来冗余或噪声。基线遵循 OpenVLAKim 等2024a只使用当前帧作为输入。作者将其扩展为包含多帧过去的影像利用 Qwen3-VL-2BBai 等2025b的多帧/视频能力以做受控比较。结果显示加入时序历史并未提升动作生成效果反而略微降低了性能表 1表明冗余的时序输入可能带来噪声或分散模型注意力。相机视角范围Camera View Horizon研究相机视点对 VLA 性能的影响。相机的数量、放置位置与视角直接决定视觉信息的几何覆盖与可辨识性进而影响空间推理与动作规划。基线采用单个第三视角third-person view仍沿用 OpenVLA 的做法。许多机器人数据集O’Neill 等2024Khazatsky 等2024额外提供了手持腕部相机wrist camera便于比较单视角与多视角输入的差异。结果表明把第三视角与腕部视角结合能显著提升性能表 1表明多视角观测提供了互补的几何线索有助于消解空间歧义。本体感觉Proprioception条件化作者考察本体感觉的作用——它提供机器人内部状态与运动历史的信息。基线沿用 OpenVLA没有使用本体感觉输入。有些基线选择纯视觉语言来简化输入接口但在控制精度和闭环可靠性上可能受限。比较了三种变体在 VLM 端进行条件化把 proprioception 作为VLM 输入、在策略模块端进行条件化把 proprioception注入 policy以及同时在两端进行条件化见图 5。具体来说在 VLM 部分把本体感觉作为输入而在策略部分我们使用动作作为输入以与生成的动作对齐。结果显示在VLM 端对本体感觉进行条件化效果最佳表 1。作者猜测在VLM 级别整合本体感觉能更好地与视觉和语言输入融合而直接把本体感觉注入策略模块可能会降低策略对视觉观测和指令的依赖从而影响表现。虽然这似乎与 Zhao 等2025a报告的结论不同其声称不需要本体感觉但他们的研究是在仅将本体感觉注入策略模块的架构上进行评估的。在那种设置下去掉本体感觉能提升性能这与作者的发现是一致的因为他们只在 policy 端注入。作者进一步比较了三种不同的集成机制线性投影器linear projector、基于 Transformer 的投影器、以及带有掩蔽重构预训练masked reconstruction pretrainingHe 等2022的 Transformer 投影器。投影器负责把低层的本体感觉信号映射到与视觉-语言表征兼容的嵌入空间。Transformer 投影器表现略优表 1但为简洁起见我们在最终设计中采用线性投影器。2.3 动作建模视角在这里我们考察一些辅助的设计和训练目标以促进更好的动作生成。世界建模World Modelling作者评估用辅助的世界建模目标来增强动作预测Lv 等2025Cen 等2025b。为避免依赖预训练的图像生成器使用 Emu3.5 将图像标记化并用next-token 目标来预测未来的图像 token。目标是固定时域8 步对齐动作分块长度的未来帧。视觉生成模块被插入到 VLM 与策略模块之间并采用逐层连接见图 6。该模块相当于一个中间任务网络既接收上游表征又向下游策略提供未来观测预测的监督信号。加入世界建模确实改善了动作生成性能表 1说明预测未来观测是有益的。然而该做法几乎使训练时间增加三倍大幅提升了计算开销。因此把世界建模从最终配方中剔除。时序预测Time Series Forecasting作者还从时序预测的角度探讨如何促进动作生成。受时序预测中频域建模的启发Zhou 等2022Yi 等2023Yang 等2024Wang 等2025a作者引入一个简单的辅助损失在频域上最小化预测动作与真实动作的 MSE相对于 flow-matching 损失的加权系数为 0.1–0.2。在频域上对齐能鼓励模型在整体频谱特性如平滑性、周期性上匹配真实动作从而改善轨迹连贯性与噪声抑制。使用离散余弦变换DCTAhmed 等1974将动作转换到频域。该策略提升了动作生成性能略优于世界建模目标同时几乎不增加训练开销表 1。产生增益的原因很可能是机器人动作序列具有结构性和低秩性因此适合用频域建模。2.4 配方总结从经典的 RT-2/OpenVLA 风格基线出发发现强劲的 VLA 性能来源于一系列有原则的设计选择。有益的改动包括用更深、专用的策略模块替代简单的 token 复用采用动作分块以建模更长的时间窗口使用连续目标如 flow-matching且对于简单分布回归也有效采用更强的 VLM 骨干以 Qwen3-VL-2B 作为兼顾效率与性能的选择以及通过带可学习 query 缓冲的软式逐层交互连接 VLM 与策略模块。在感知方面采用多视角输入第三视角 腕视角在VLM 端做本体state条件化能提升性能而冗余的时序观测历史并非必要。此外加入一个轻量的频域辅助损失能够以几乎可忽略的代价进一步提升动作生成效果。虽然世界建模也能提升性能但其显著增加的训练成本使其在实践中不太实用。综上这些选择共同构成了一套构建强健且高效 VLA 模型的实用配方我们将其称为 VLANeXt。3. 基准评估3.1 Settings为了评估标准性能和泛化鲁棒性使用了 LIBERO 生态系统。首先在标准 LIBERO 基准Liu 等2023上评估了 VLANeXt该基准包含四个不同类别Spatial、Object、Goal 和 Long用于测试任务学习能力每个子集提供 10 个任务、每个任务约 500 条专家示范用来评估策略对不同空间布局、物体、目标和长时序任务的泛化能力。为了进一步测试模型的泛化边界在LIBERO-plusFei 等2025b上评估了作者的方法。与标准 LIBERO 的静态条件不同LIBERO-plus 对评测集进行了系统性变化共包含 10,030 条示范覆盖前述四个子集并在视觉如光照、背景、相机位姿、物理如物体布局、机器人状态和语义如语言指令改写维度上引入扰动。遵循 OpenVLAKim 等2024a中的标准设置针对每个子集Spatial、Object、Goal、Long在修改后的 LIBERO 数据集上训练模型并在对应子集的 LIBERO 与包含未见扰动的 LIBERO-plus 上评估性能。为了在不同设计选择间进行公平比较我们把所有模型都直接在 LIBERO 数据集上进行微调fine-tune。配方中的所有实验均使用 10,000 次训练步、批量大小 256。学习率对小于 3B 参数的模型设为1 × 10 − 4 1×10^{−4}1×10−4否则设为5 × 10 − 5 5×10^{−5}5×10−5。3.2 LIBERO 基准结果在 LIBERO 基准上作者将方法与两类方法进行比较i仅在机器人数据集上训练的直接策略学习方法ii利用预训练 VLM 知识进行策略学习的 VLA 方法。在直接策略学习方法中包含了 Diffusion PolicyChi 等2025、OctoGhosh 等2024和 MDTReuss 等2024。在 VLA 方法中与 OpenVLAKim 等2024a、TraceVLAZheng 等2025、SpatialVLAQu 等2025、WorldVLACen 等2025b、CoT-VLAZhao 等2025b、π0Black 等2024、π0-FastPertsch 等2025、NORAHung 等2025、SmolVLAShukor 等2025、UniVLAWang 等2025d、FLOWERReuss 等2025以及 OpenVLA-OFTKim 等2025进行了比较。比较结果列于表 2。可以看到按照作者的配方构建的 VLA 表现强劲并达到了最先进水平这证明了这些设计选择的有效性。3.3 LIBERO-plus 基准结果在 LIBERO-plus 基准上我们将模型与多种 VLA 方法进行比较包括 OpenVLAKim 等2024a、WorldVLACen 等2025b、NORAHung 等2025、UniVLAWang 等2025d、π0Black 等2024、π0-FastPertsch 等2025及 OpenVLA-OFTKim 等2025。如表 3 所示所提 VLANeXt 在对抗不同类型未见扰动时展现了强大的泛化能力。此外与既有方法相比模型在 LIBERO-plus 基准上较最先进方法 OpenVLA-OFTKim 等2025取得了显著提升成功率提高约 10%这进一步表明所探索的配方是有效的。4. 真实世界评估本章旨在把实验从仿真搬到真实机器人上检验模型在现实操作场景中的可靠性与可部署性。为了全面评估作者方法的性能还在真实环境中进行了部署评测。4.1 设置本小节描述真实世界实验的任务、平台、数据收集与训练细节。设计了四个任务两个单臂任务和两个双臂双手任务用以评估方法表现。单臂任务包括桌面清理把桌面物体拾起并放入容器和抽屉操作打开抽屉、放入物体并关闭。双臂任务包括篮子抬举双手共同抬起一个篮子和双臂桌面清理两臂协同将桌面物体收集并放入容器。单臂实验使用 Franka Emika而双臂实验在 Aloha system 上进行。每个任务的实验布局示意见图 8。在训练环节为每个任务收集50 条示范episodes并对每个模型进行20 次试验来报告成功率。先在DROID 上进行 100k 步的预训练然后以学习率1 × 10 − 4 1×10^{−4}1×10−4在每个任务上再微调 20k 步。因为 DROID仅包含单臂数据故要把模型适配到双臂任务需要重新初始化 proprioception 的投影器以及动作生成模块的最后一层同时保留其它预训练权重。4.2 结果与两种具有代表性的 VLA 基线进行比较OpenVLA-OFT 和 π0。载入上述基线的预训练检查点并以与本方法相同的方式在每个任务上进行微调以确保公平比较。对比结果见表 4。如表所示所提出的方法在真实世界实验中表现良好表明我们的设计配方能产出可在真实场景中有效部署的强 VLA 模型即 VLANeXt。此外即便没有专门的双臂训练我们的方法也能以不错的性能适配双臂任务展现了方法在不同 embodiment 间的可迁移性。在补充材料中提供了实验结果的更多视频演示。5. 结论本工作朝着对 VLA 模型更系统化的理解迈进。与其再提出一个独立的架构我们回顾并规范化了 VLA 流程展示出许多性能提升来自于统一框架下的有原则设计选择。特别地VLM 与策略模块如何交互、多模态信号例如本体感觉如何融合、以及动作的时间结构如何建模都是核心要素。若干观察具有更广泛的含义。适度的架构改进例如软式 VLM—策略耦合或在 VLM 侧对本体感觉做条件化能显著影响性能——这表明“在何处注入信息”与“注入什么信息”同样重要。将动作生成视为有结构的序列建模——例如引入频域目标——表明时序学习领域的思想可以有效迁移到机器人学。与此同时更“丰富”的目标比如世界建模确实能提升性能但会带来明显的计算开销这凸显了以效率为导向的设计重要性。作者希望本工作能促使社区从零散的模型变体转向对 VLA 设计空间更受控、更系统的探索。通过发布一个统一且轻量的框架作者旨在支持系统化研究与社区共享的进步。将这一视角推广到更多样的机体形态、更长时序的推理以及更丰富的与世界交互的目标是未来研究的重要方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2417131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…