ICRA-2025 | 视觉预测助力机器人自主导航！NavigateDiff：视觉引导的零样本导航助理

news2025/7/16 19:56:56

论文：Yiran Qin $^{1,2}$ , Ao Sun $^{2}$ , Yuze Hong $^{2}$ , Benyou Wang $^{2}$ , Ruimao Zhang $^{1}$
单位： $^{1}$ 中山大学， $^{2}$ 香港中文大学深圳校区
论文标题：NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
论文链接：https://arxiv.org/pdf/2502.13894
项目主页：https://21styouth.github.io/NavigateDiff/

论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战，特别是如何在不进行大量地图绘制和探索的情况下，实现零样本导航。

该问题的研究难点包括：

论文提出了NavigateDiff导航框架，旨在通过视觉预测器将高层次的任务推理与低层次的机器人控制分离，从而实现可泛化的导航。

预测器结合了多模态大模型（MLLM）和未来帧预测模型，能够处理当前观察、目标图像和指令，并生成预测的未来图像。
多模态大模型：输入当前观察 $x_{t}$ 、目标图像 $x_{g}$ 和文本指令 $y$ ，生成特殊图像标记，然后传递给未来帧预测模型。
未来帧预测模型：将特殊图像标记转换为语义相关的表示 $f^{N}$ ，并将其与从2D编码器提取的特征 $f^{H}$ 融合。融合特征 $f^{*}$ 用于条件化编辑型扩散模型生成未来图像：
$f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h}))$
其中， $Q$ 表示Q-Former， $E_{v}$ 是二维编码器， $H$ 是融合块，包含两个自注意力块、一个交叉注意力块和一个MLP层。
训练目标是通过最小化噪声与去噪结果之间的差异来优化预测器：
$\mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}]$
其中， $\epsilon$ 表示未缩放的噪声， $s$ 表示采样步长， $z_{s}$ 是步骤 $s$ 的潜在噪声， $\mathcal{E}(x_{t})$ 对应于当前观察的条件。

尽管预测器提供了视觉模态内的未来状态规划，但仍需要训练一个低层次控制器来选择适当的导航动作。
图像融合策略：在训练阶段，将当前观察 $x_{t}$ 与未来帧 $x_{t+k}$ 和目标图像 $x_{g}$ 拼接并通过可训练的二维编码器进行处理，以获得融合表示。使用强化学习（如PPO）训练导航策略：
$s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1})$
其中， $s_{t}$ 表示智能体当前状态的嵌入， $h_{t-1}$ 表示策略 $\pi$ 中来自前一步的循环层的隐藏状态。
测试阶段：使用训练好的预测器和融合导航策略在新环境中进行导航。生成未来帧后，执行融合导航策略以生成具体的动作序列。
融合策略设计：提出了混合融合方法，比较了其与早期融合和晚期融合的性能。混合融合方法在像素级建立语义关联，并在时间维度上分离局部和全局信息，从而实现更好的性能。

评估：使用三种图像级指标（Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity）评估预测器的生成能力。结果显示，预测器在所有指标上均优于基线模型。

结果：
- 在GIBSON数据集上，NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表现优异。
- 在MP3D数据集上进行跨域评估，NavigateDiff在较小的训练数据集上表现出色，超越了全数据集上的现有方法。
跨任务评估：
- 数据集：在GIBSON环境中训练的模型直接转移到MP3D环境中进行评估。
- 结果：NavigateDiff在MP3D数据集上实现了68.0%的SR和41.1%的SPL，优于其他方法。