ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理

news2025/5/19 4:42:56

  • 论文:Yiran Qin 1 , 2 ^{1,2} 1,2, Ao Sun 2 ^{2} 2, Yuze Hong 2 ^{2} 2, Benyou Wang 2 ^{2} 2, Ruimao Zhang 1 ^{1} 1
  • 单位: 1 ^{1} 1中山大学, 2 ^{2} 2香港中文大学深圳校区
  • 论文标题:NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
  • 论文链接:https://arxiv.org/pdf/2502.13894
  • 项目主页:https://21styouth.github.io/NavigateDiff/

主要贡献

  • 提出了新的导航框架NavigateDiff,通过将高层次任务推理与低层次机器人控制分离,增强了导航的泛化能力。
  • 引入了视觉预测器,结合多模态语言模型和扩散模型,用于生成未来的场景图像,以辅助机器人决策。
  • 设计了混合融合策略网络,通过整合当前观察、未来预测和目标图像,优化机器人的导航动作。
  • 通过模拟和现实环境的广泛实验,验证了该方法在零样本导航中的有效性和鲁棒性,展示了其在不同环境中的适应性。

研究背景

研究问题

论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战,特别是如何在不进行大量地图绘制和探索的情况下,实现零样本导航。

研究难点

该问题的研究难点包括:

  • 现有强化学习方法依赖于大量的地图绘制和探索,导致时间消耗大且效率低下;
  • 现有数据集无法覆盖机器人可能遇到的所有环境和场景,缺乏广泛的逻辑知识。

相关工作

  • 基于视觉的导航
    • 讨论了经典的SLAM方法和基于学习的方法在机器人视觉导航中的应用。
    • 这些方法包括端到端学习技术、记忆增强的强化学习、单目相机设置下的导航改进,以及模块化的导航和语义映射任务。
  • 扩散模型用于图像生成
    • 介绍了文本到图像的扩散模型如何改进指令驱动的图像生成方法。
    • 这些模型在图像编辑和动态导航任务中的应用被讨论,强调了在导航任务中生成符合物理规则的未来图像的挑战。
  • 预训练基础模型用于具身任务
    • 探讨了大模型(LLMs)和扩散模型在导航等具身任务中的应用。
    • 这些模型通过其信息处理和生成能力,用于导航任务中的先验知识推理、路径规划和目标识别等。

研究方法

论文提出了NavigateDiff导航框架,旨在通过视觉预测器将高层次的任务推理与低层次的机器人控制分离,从而实现可泛化的导航。

形式化描述

  • 为了生成未来帧的训练数据,论文使用模拟器内置的“最短路径跟随”算法来获取每个任务的标准化路线,并生成相应的视频。
  • 在现实世界中,论文记录了人类远程控制导航机器人完成图像导航任务的视角视频。
  • 从收集的视频中,随机选择起始帧,并根据预定义的预测间隔生成对应的未来帧。同时记录相关的导航任务信息,形成训练元组 ( x t , x t + k , x h , y , x g ) (x_{t}, x_{t+k}, x_{h}, y, x_{g}) (xt,xt+k,xh,y,xg),其中:
    • x t x_{t} xt 是当前观察图像,
    • x t + k x_{t+k} xt+k 是需要预测的未来帧图像,
    • x h x_{h} xh 是历史帧,
    • y y y 是任务的文本指令,
    • x g x_{g} xg 是导航任务的最终目标图像。

预测器

  • 预测器结合了多模态大模型(MLLM)和未来帧预测模型,能够处理当前观察、目标图像和指令,并生成预测的未来图像。
  • 多模态大模型:输入当前观察 x t x_{t} xt、目标图像 x g x_{g} xg 和文本指令 y y y,生成特殊图像标记 ,然后传递给未来帧预测模型。
  • 未来帧预测模型:将特殊图像标记转换为语义相关的表示 f N f^{N} fN,并将其与从2D编码器提取的特征 f H f^{H} fH 融合。融合特征 f ∗ f^{*} f 用于条件化编辑型扩散模型生成未来图像:
    f ∗ = H ( Q ( h < image > ) , E v ( x h ) ) f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h})) f=H(Q(h<image>),Ev(xh))
    其中, Q Q Q 表示Q-Former, E v E_{v} Ev 是二维编码器, H H H 是融合块,包含两个自注意力块、一个交叉注意力块和一个MLP层。
  • 训练目标是通过最小化噪声与去噪结果之间的差异来优化预测器:
    L predictor = E E ( x t + k ) , E ( x t ) , ϵ ∼ N ( 0 , 1 ) , s [ ∥ ϵ − ϵ δ ( s , [ z s , E ( x t ) ] + f ∗ ) ∥ 2 2 ] \mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}] Lpredictor=EE(xt+k),E(xt),ϵN(0,1),s[ϵϵδ(s,[zs,E(xt)]+f)22]
    其中, ϵ \epsilon ϵ 表示未缩放的噪声, s s s 表示采样步长, z s z_{s} zs 是步骤 s s s 的潜在噪声, E ( x t ) \mathcal{E}(x_{t}) E(xt) 对应于当前观察的条件。

融合导航策略

  • 尽管预测器提供了视觉模态内的未来状态规划,但仍需要训练一个低层次控制器来选择适当的导航动作。
  • 图像融合策略:在训练阶段,将当前观察 x t x_{t} xt 与未来帧 x t + k x_{t+k} xt+k 和目标图像 x g x_{g} xg 拼接并通过可训练的二维编码器进行处理,以获得融合表示。使用强化学习(如PPO)训练导航策略:
    s t = π ( [   f p , f o , a t − 1   ] ∣ h t − 1 ) s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1}) st=π([fp,fo,at1]ht1)
    其中, s t s_{t} st 表示智能体当前状态的嵌入, h t − 1 h_{t-1} ht1 表示策略 π \pi π 中来自前一步的循环层的隐藏状态。
  • 测试阶段:使用训练好的预测器和融合导航策略在新环境中进行导航。生成未来帧后,执行融合导航策略以生成具体的动作序列。
  • 融合策略设计: 提出了混合融合方法,比较了其与早期融合和晚期融合的性能。混合融合方法在像素级建立语义关联,并在时间维度上分离局部和全局信息,从而实现更好的性能。

实验

预测器

  • 数据集:使用GIBSON数据集中的视频序列进行训练,设置预测间隔 k = 5 k=5 k=5
  • 训练过程:首先使用InstructPix2Pix预训练扩散模型的权重,然后在导航环境中进行端到端的优化。

  • 评估:使用三种图像级指标(Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity)评估预测器的生成能力。结果显示,预测器在所有指标上均优于基线模型。

模拟实验

  • 数据集:在Habitat模拟器中使用GIBSON数据集进行训练,采用72个训练场景和14个测试场景。
  • 设置:训练500M步,遵循FGPrompt的规则。报告了多个数据集上的结果,以便与现有工作直接比较。

  • 结果

    • 在GIBSON数据集上,NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表现优异。
    • 在MP3D数据集上进行跨域评估,NavigateDiff在较小的训练数据集上表现出色,超越了全数据集上的现有方法。
  • 跨任务评估

    • 数据集:在GIBSON环境中训练的模型直接转移到MP3D环境中进行评估。
    • 结果:NavigateDiff在MP3D数据集上实现了68.0%的SR和41.1%的SPL,优于其他方法。

真实世界实验

  • 设置:在办公室、停车场和走廊三种室内环境中进行测试,每种环境代表不同的布局、照明和障碍物挑战。
  • 结果:在所有三种真实世界场景中,NavigateDiff在成功率和SPL上均超过基线模型,展示了其在不同环境中的鲁棒性。

融合策略设计

  • 评估:在不同的融合策略(早期融合、晚期融合和混合融合)上进行评估。
  • 结果:混合融合策略在GIBSON ImageNav任务中实现了91.0%的SR和64.8%的SPL,显著优于其他融合策略。

总结

  • 论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。
  • NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2332884.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Orin NX编译 linux 内核及内核模块

1、下载交叉编译工具:gcc 1)下载地址:https://developer.nvidia.com/embedded/jetson-linux 选择TOOLS中的交叉编译工具:gcc 11.3 2)解压 将gcc编译器解压到指定目录中,如:/home/laoer/nvidia/gcc 3)配置环境变量 创建: ~/nvidia/gcc/env.sh添加: #!/bin/bash e…

【C++经典例题】字符串转整数(atoi)的实现与解析

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;C经典例题 期待您的关注 目录 一、问题描述 二、解题思路 三、代码实现 四、代码逻辑详解 1. 变量初始化 2. 忽略前导空格 …

数据库数据恢复——sql server数据库被加密怎么恢复数据?

SQL server数据库数据故障&#xff1a; SQL server数据库被加密&#xff0c;无法使用。 数据库MDF、LDF、log日志文件名字被篡改。 数据库备份被加密&#xff0c;文件名字被篡改。 SQL server数据库数据恢复过程&#xff1a; 1、将所有数据库做完整只读备份。后续所有数据恢…

C# 组件的使用方法

类 Stopwatch 计算时间 Stopwatch sw new Stopwatch(); sw.Start(); // 要执行的代码块 Thread.Sleep(2000);sw.ElapsedMilliseconds // 消耗时间 Console.WriteLine(sw.ElapsedMilliseconds);组件 ListView 属性设置 外观 - View - Details 行为 - Columns -&#xff08;…

QCustomPlot频谱图

使用QCutomPlot做的读取txt文件显示频谱图的demo,帮助大家了解QCustomPlot的基本使用 1.运行结果 demo比较简单,用于文件读取,鼠标放大缩小,右键截图等基础功能. 2.绘图详解 绘图核心是将类提升为QCustomPlot之后进行重绘,重绘之前设计图表曲线,图标标题,坐标轴,坐标轴范围,背…

高并发的业务场景下,如何防止数据库事务死锁

一、 一致的锁定顺序 定义: 死锁的常见原因之一是不同的事务以不同的顺序获取锁。当多个事务获取了不同资源的锁,并且这些资源之间发生了互相依赖,就会形成死锁。 解决方法: 确保所有的事务在获取多个锁时,按照相同的顺序请求锁。例如,如果事务A需要锁定表A和表B,事务…

【Grok 大模型深度解析】第二期:架构探秘与训练哲学

在上一期的内容中,我们对 Grok 大模型从技术溯源的角度,了解了它从 Transformer 架构局限性出发,迈向混合架构创新的历程,同时也梳理了从 Grok - 1 到 Grok - 3 的版本迭代所带来的技术跃迁以及其独特的差异化优势。这一期,我们将深入到 Grok 大模型的架构内部,探究其精妙…

2025第四届大学生算法挑战赛(进阶训练1) A-E 题解报告

前言 这是第四届大学生算法挑战赛的练习赛系列&#xff0c;这个比赛是国家一级协会的。 这章是进阶训练1的A-E题&#xff0c;感觉还是蛮基础的。 题解 第四届大学生算法挑战赛 进阶训练1 A. 小理养鱼 思路: 博弈 斐波那契数组 省流描述: 经典的羊狼博弈&#xff0c;即1只…

P8668 [蓝桥杯 2018 省 B] 螺旋折线

题目 思路 一眼找规律题&#xff0c;都 1 0 9 10^9 109说明枚举必然超时&#xff0c;找规律&#xff0c;每个点找好像没有什么规律&#xff0c;尝试找一下特殊点&#xff0c;比如&#xff1a;对角线上的点 4 16 36(右上角&#xff09; 4k^2&#xff0c;看在第几层&#xff08;…

Matlab 三容水箱系统故障诊断算法研究

1、内容简介 Matlab 190-三容水箱系统故障诊断算法研究 可以交流、咨询、答疑 2、内容说明 略 其次&#xff0c;对 DTS200 三容水箱系统进行机理建模&#xff0c;可分为对象建模和故障 建模&#xff0c;搭建了水箱系统的 SIMULINK 模型并建立了基于 Taylor 展开及 T-…

查看容器内的eth0网卡对应宿主机上的哪块网卡

查看容器内的eth0网卡对应宿主机上的哪块网卡 问题描述解决办法1. 进入容器,查看网卡的iflink(接口链路索引)值方法1:方法2: 2. 从宿主机过滤查询到的iflink(接口链路索引)值3. 确定veth接口连接的网桥方法2: brctl查看连接到网桥的接口--推荐 4. 查看网桥连接的物理网卡 问题描…

RT-DETR-R18版本的ultralytics的yaml更改分享!!

0.前言 起因&#xff1a; 本人深度学习&#xff0c;无奈组内没有好的显卡&#xff0c;只有我自己拥有的一张4060卡跑CV&#xff0c;稍微大一点的模型跑不了&#xff0c;我的模型主打一个轻量化... 在找模型与我的模型进行比较的时候&#xff0c;看的RT-DETR-R18版本(GFLPOS也…

AI低代码平台:开启高效智能开发新时代

科技飞速发展的当下&#xff0c;全球正加速迈向 AI 化。DeepSeek 等主流 AI 厂商的发展极大地改变了技术格局。众多企业为紧跟时代步伐&#xff0c;对高效开发工具的需求愈发迫切。百特搭AI低代码开发平台与 AI 技术的融合&#xff0c;为企业带来了开发高效化与智能化的全新解决…

苍穹外卖2

根据id查询员工 调用顺序&#xff1a;Controller—>Service—>ServiceImpl—>Mapper—>xml 1.controller层一个tab秒了&#xff08;ai生成&#xff09; 由于result泛型中希望返回一个employee对象&#xff0c;所以定义一个employee来接受Service的getbyid方法,在…

mac|使用scrcpy实现无线Android投屏

scrcpy是一个开源项目&#xff0c;从项目的releases可以得知它适用于windows、linux、mac github&#xff1a;https://github.com/Genymobile/scrcpy/releases github中提供了应用于mac系统的静态版本&#xff08;也就是上图的scrcpy-macos-aarch64-v3.1.tar.gz和scrcpy-macos…

【智驾中的大模型 -1】自动驾驶场景中的大模型

1. 前言 我们知道&#xff0c;大模型现在很火爆&#xff0c;尤其是 deepseek 风靡全球后&#xff0c;大模型毫无疑问成为为中国新质生产力的代表。百度创始人李彦宏也说&#xff1a;“2025 年可能会成为 AI 智能体爆发的元年”。 随着科技的飞速发展&#xff0c;大模型的影响…

网络4 OSI7层

OSI七层模型&#xff1a;数据如何传送&#xff0c;向下传送变成了什么样子 应用层 和用户打交道&#xff0c;向用户提供服务。 例如&#xff1a;web服务、http协议、FTP协议 1.用户接口 2.提供各种服务 通过浏览器&#xff08;接口&#xff09;提供Web服务 表示层 翻译 我的“…

文件IO6(开机动画的显示原理/触摸屏的原理与应用)

开机动画的显示原理 ⦁ 基本原理 一般电子产品在开机之后都会加深用户印象&#xff0c;一般开机之后都会播放一段开机动画&#xff08;视频、GIF…&#xff09;&#xff0c;不管哪种采用形式&#xff0c;内部原理都是相同&#xff0c;都是利用人类的眼睛的视觉暂留效应实现的…

低代码开发能否取代后端?深度剖析与展望-优雅草卓伊凡

低代码开发能否取代后端&#xff1f;深度剖析与展望-优雅草卓伊凡 在科技迅猛发展的当下&#xff0c;软件开发领域新思潮与新技术不断涌现&#xff0c;引发行业内外热烈探讨。近日&#xff0c;笔者收到这样一个颇具争议的问题&#xff1a;“低代码开发能取代后端吗&#xff1f…

反向代理断线重连优化

背景 1. 部分时候&#xff0c;反向代理因为路由重启&#xff0c;或者其他断网原因&#xff0c;等网络恢复后&#xff0c;无法对隧道重连。 2. 增加了心跳机制 在DEBUG调试过程中&#xff0c;发现禁用网卡后&#xff0c;在反向代理重连时候&#xff0c;服务器没有释放掉占用的…