纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航

news2025/5/13 1:29:51

  • 作者:Xinhao Liu, Jintong Li, Yicheng Jiang, Niranjan Sujay, Zhicheng Yang, Juexiao Zhang, John Abanes, Jing Zhang, Chen Feng
  • 单位:纽约大学
  • 论文标题:CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
  • 论文链接:https://arxiv.org/abs/2411.17820
  • 项目主页:https://ai4ce.github.io/CityWalker/
  • 代码链接:https://github.com/ai4ce/CityWalker

主要贡献

  • 提出了可扩展的数据驱动方法:通过利用网络规模的城市行走和驾驶视频来训练模型,解决了动态城市环境中导航这一具有挑战性的问题,为实现类人城市导航提供了一种高效且可行的解决方案。
  • 设计了简单且可扩展的数据处理范式:无需大量手动标注,仅依靠现成的视觉里程计(VO)模型从视频中提取动作监督信号,即可实现大规模模仿学习,大大降低了数据准备的成本和难度,使模型能够从海量数据中学习到复杂的导航策略。
  • 显著提升了导航性能:实验结果表明,在大规模多样化数据集上进行训练能够显著提高导航性能,使智能体能够有效应对城市中的复杂场景和动态变化,超越了现有的方法,为在真实世界中部署自主导航智能体奠定了坚实基础。

研究背景

  • 视觉导航的重要性
    • 视觉导航对于移动智能体来说是一项至关重要的能力。在城市环境中,人类通常依赖导航工具(如谷歌地图)来规划从当前位置到目标位置的路径,但实际在路径点之间的导航需要智能体具备复杂的空间意识和决策能力,以应对各种动态变化和障碍物。
  • 现有方法的局限性
    • 尽管在模拟器或适度复杂环境中取得了一定的进展,但现有的视觉导航方法在没有地图或在街道外的设置中表现不佳,限制了自主智能体(如最后一公里配送机器人)的部署。
    • 现实世界的城市环境是动态且不可预测的,充满了多样的地形、障碍物和密集的人群,需要智能体实时适应,并且遵守常识性的导航规则和社会规范,如使用人行道、遵守交通信号、保持适当的人际距离等。
    • 这些复杂的行为和约束很难被纳入模拟环境中,导致现有的强化学习和模仿学习方法在真实世界的城市导航中难以取得理想效果。
  • 数据驱动方法的潜力
    • 受到语言、视觉和机器人任务中扩展定律成功的启发,论文提出利用丰富的网络视频数据来开发鲁棒的导航策略,以克服现有方法的局限性,实现智能体在动态城市环境中的高效、安全导航。

具身城市导航

问题定义

CityWalker 的目标是让智能体在动态城市环境中从当前位置导航到指定的目标位置。这一任务被定义为一个 点目标导航问题(point-goal navigation problem),具体描述如下:

  • 输入
    • 当前时间步 t t t 的 RGB 观测 o t o_t ot
    • 当前 GPS 位置 p t p_t pt
    • 当前子目标路径点 w t w_t wt(由导航工具如谷歌地图提供)。
  • 输出
    • 智能体需要学习一个策略 π ( a t ∣ o t − k : t , p t − k : t , w t ) \pi(a_t | o_{t-k:t}, p_{t-k:t}, w_t) π(atotk:t,ptk:t,wt),将过去的观测和位置信息映射到动作空间 A A A 中的一个动作 a t a_t at
    • 动作 a t a_t at 表示为欧几里得空间中的动作路径点。
    • 模型通常预测未来 5 个时间步的动作,即 k = 5 k = 5 k=5

目标:智能体需要在到达当前子目标 w t w_t wt 后,根据观测和位置数据判断是否已到达目标,并继续导航到下一个路径点。

评估指标

为了全面评估不同方法在城市导航任务中的性能,论文定义了以下评估指标:

  • 平均方向误差

    • 用于衡量预测动作与真实动作之间的方向差异。
    • 定义为预测动作与真实动作之间的夹角的平均值,公式如下:
      AOE ( k ) = 1 n ∑ i = 1 n θ i k = 1 n ∑ i = 1 n arccos ⁡ ( ⟨ a ^ i k , a i k ⟩ ∥ a ^ i k ∥ ∥ a i k ∥ ) \text{AOE}(k) = \frac{1}{n} \sum_{i=1}^{n} \theta_{ik} = \frac{1}{n} \sum_{i=1}^{n} \arccos \left( \frac{\langle \hat{a}_{ik}, a_{ik} \rangle}{\|\hat{a}_{ik}\| \|a_{ik}\|} \right) AOE(k)=n1i=1nθik=n1i=1narccos(a^ik∥∥aika^ik,aik)
      其中, k k k 表示预测动作的索引, n n n 是样本数量, a ^ i k \hat{a}_{ik} a^ik 是预测动作, a i k a_{ik} aik 是真实动作。
  • 最大平均方向误差

    • 用于评估预测动作中最大方向误差的平均值,公式如下:
      MAOE = 1 n ∑ i = 1 n max ⁡ k θ i k \text{MAOE} = \frac{1}{n} \sum_{i=1}^{n} \max_{k} \theta_{ik} MAOE=n1i=1nkmaxθik
    • 这一指标可以更好地反映模型在关键时间步上的性能。
  • 关键场景

    • 识别出在导航过程中最关键的几个场景,包括转弯(Turn)、过马路(Crossing)、绕行(Detour)、近距离接触(Proximity)和人群(Crowd)。
    • 对每个场景分别计算 AOE 和 MAOE,以更全面地评估模型性能。

从网络视频中学习

为了实现大规模模仿学习,论文利用网络上的城市行走视频作为训练数据。以下是关键步骤:

数据来源
  • 收集了超过 2000 小时的网络来源的城市行走视频,涵盖了不同的地理位置、天气条件和时间段。
  • 这些视频自然地捕捉了城市环境中导航的复杂性,包括与行人的交互、遵守交通信号以及绕过各种障碍物。

动作标签提取
  • 使用视觉里程计(VO)工具(如 DPVO)从视频中提取轨迹姿态,作为动作监督信号。
  • 由于 VO 方法存在全局轨迹精度问题和尺度模糊性,论文通过以下方法解决:
    • 短时间窗口内的相对姿态:仅依赖于短时间窗口内的相对姿态,避免全局轨迹误差的影响。
    • 动作归一化:将每个动作归一化为平均步长。这一步骤解决了不同视频之间的尺度不一致问题。
泛化性和可扩展性
  • 该数据处理方法不仅适用于城市行走视频,还可以扩展到其他具有自我运动的视频,如驾驶视频。
  • 通过结合城市行走和驾驶视频进行训练,模型能够学习到更通用的导航策略,适用于跨领域和跨体现的任务。

流程管道与训练

模型架构
  • 核心是一个 Transformer,处理包含过去 k k k 帧图像特征和一个坐标嵌入的输入序列。
  • 坐标嵌入由过去 k k k 个位置和一个目标位置堆叠而成。
  • 输出序列与输入长度相同,通过动作头(Action Head)和到达预测头(Arrival Head)解码为动作和到达状态预测。
特征幻觉
  • 作为辅助损失,引导 Transformer 预测更接近未来帧的图像特征。
  • 计算输出图像标记与未来帧直接提取的图像标记之间的均方误差损失。
损失函数
  • 结合了 L1 损失、方向损失、到达状态的二元交叉熵损失和特征幻觉损失:
    L = ω l1 L l1 + ω ori L ori + ω arr L arr + ω feat L feat \mathcal{L} = \omega_{\text{l1}} \mathcal{L}_{\text{l1}} + \omega_{\text{ori}} \mathcal{L}_{\text{ori}} + \omega_{\text{arr}} \mathcal{L}_{\text{arr}} + \omega_{\text{feat}} \mathcal{L}_{\text{feat}} L=ωl1Ll1+ωoriLori+ωarrLarr+ωfeatLfeat
    其中,方向损失定义为预测动作和真实动作之间的负余弦相似度:
    L ori = − 1 k ∑ i = 1 k ⟨ a ^ i , a i ⟩ ∥ a ^ i ∥ ∥ a i ∥ \mathcal{L}_{\text{ori}} = -\frac{1}{k} \sum_{i=1}^{k} \frac{\langle \hat{a}_i, a_i \rangle}{\|\hat{a}_i\| \|a_i\|} Lori=k1i=1ka^i∥∥aia^i,ai

实验

实验设置

  • 基线方法

    • GNM:一种通用导航模型,适用于多种机器人。
    • ViNT:一种视觉导航基础模型,支持微调。
    • NoMaD:一种基于扩散策略的导航模型。
  • 数据收集

    • 使用 Unitree Go1 四足机器人进行数据收集,配备 Livox Mid-360 LiDARWebcam 用于 RGB 观测。
    • 使用 LiDAR SLAM 方法获取机器人的姿态作为真实动作标签。
    • 在纽约市不同区域收集了 15 小时 的遥操作数据,其中 6 小时 用于微调,9 小时 用于测试。
  • 关键场景

    • 转弯(Turn):当真实动作方向变化显著时,定义为 ϕ action > 2 0 ∘ \phi_{\text{action}} > 20^\circ ϕaction>20
    • 过马路(Crossing):当检测到交通信号灯时,定义为分数 > 0.5 > 0.5 >0.5
    • 绕行(Detour):当动作方向与目标方向偏差较大时,定义为 ∣ ϕ action − ϕ target ∣ > 4 5 ∘ |\phi_{\text{action}} - \phi_{\text{target}}| > 45^\circ ϕactionϕtarget>45
    • 近距离接触(Proximity):当检测到的行人占据图像面积超过 25% 时。
    • 人群(Crowd):当检测到的行人数量 ≥ 5 \geq 5 5 时。

性能基准测试

本小节旨在回答问题 Q1CityWalker 模型是否能够在复杂的城市环境中成功导航?

  • 离线数据评估
    • 上表展示了不同方法在各种关键场景下的性能对比,主要评估指标为 AOE(5)MAOE到达率(Arrival Rate)
    • CityWalker 在所有关键场景中均表现出色,尤其是在微调后,其 MAOE到达率 显著优于基线方法。
    • 例如,在 转弯(Turn) 场景中,CityWalkerMAOE 为 14.07°,而 ViNTMAOE 为 31.15°。
    • 到达率 方面,CityWalker 在所有场景中的平均到达率为 87.84%,远高于 ViNT 的 70.69%。

  • 真实世界部署
    • Unitree Go1 四足机器人上进行真实世界导航实验,目标位置距离起始位置约 50-100 米。
    • 实验分为 前进(Forward)左转(Left turn)右转(Right turn) 三种情况,每种情况进行 8-14 次试验。
    • 上表显示了不同方法的成功率,CityWalker 在所有情况下均表现出色,整体成功率达到 77.3%,显著高于 ViNT 的 57.1% 和 NoMaD 的 42.9%。
    • 这表明 CityWalker 能够有效应对城市环境中的复杂动态变化,具有更强的适应性和可靠性。


数据扩展优势

本小节旨在回答问题 Q2:增加训练数据量是否能够显著提升模型性能?

  • 性能与数据量关系

    • 上图展示了模型在不同数据量下的性能变化,以 MAOE 为评估指标。
    • 结果表明,随着训练数据量的增加,CityWalker 的零样本性能显著提升。
    • 当训练数据量超过 1000 小时时,CityWalker 的零样本性能甚至超过了经过微调的 ViNT 模型。
    • 这表明大规模训练数据能够显著提升模型的导航性能,即使在没有微调的情况下也能取得优异结果。
  • 跨领域数据

    • 论文还评估了仅使用驾驶视频以及结合驾驶和行走视频训练的模型性能。
    • 结果显示,仅使用驾驶视频训练的模型性能与基线方法相当,但结合两种视频训练的模型性能显著提升。
    • 例如,使用 250 小时的混合数据训练的模型性能接近使用 1000 小时行走数据单独训练的模型,这表明跨领域数据能够显著提升模型的泛化能力。

  • 特征幻觉损失
    • 上图展示了不同训练设置下的损失曲线。
    • 结果表明,使用特征幻觉损失的训练方法在大规模数据上能够更快收敛,并且在微调后能够进一步提升性能。
    • 这表明特征幻觉损失在大规模训练中具有显著优势,能够提升模型的泛化能力。

模型组件分析

本小节旨在回答问题 Q3:模型的各个组件如何提升其性能和可靠性?

  • 不同时间步的 AOE
    • 上表展示了不同方法在不同时间步的 AOE
    • CityWalker 在多个时间步上保持了较低且稳定的 AOE,而 ViNTAOE 随着时间步的增加而显著上升。
    • 这表明 CityWalker 在多步预测中具有更好的稳定性和准确性,适合真实世界中的复杂导航任务。

  • 消融研究
    • 上表展示了不同训练组件对模型性能的影响。
    • 结果表明,微调阶段使用专家数据能够显著提升模型性能,MAOE 从 17.03° 降低到 15.16°。
    • 特征幻觉损失和方向损失对性能的提升作用较小,但在大规模数据训练中仍具有一定的改进效果。

结论与未来工作

  • 总结
    • CityWalker通过利用大规模网络视频数据,显著提升了城市导航的性能,证明了数据扩展对于开发鲁棒导航策略的潜力。
    • 该研究不仅提出了一种有效的数据驱动方法来解决动态城市环境中的导航问题,还通过实验验证了其在真实世界中的可行性和优越性,为未来智能体在复杂城市环境中的自主导航研究提供了新的思路和方向。
  • 局限性
    • 在真实世界部署中,该方法对较大的GPS误差敏感,这是由于简单的位置数据处理方法无法有效处理显著的位置不准确,可能会导致导航决策出现偏差,从而影响导航的成功率和准确性。
  • 未来工作
    • 将重点关注提高模型对位置噪声的鲁棒性,以增强模型在实际应用中的稳定性和可靠性。
    • 此外,还可以进一步探索如何更好地利用多源数据(如不同类型的传感器数据、不同模态的数据等)来进一步提升模型的性能和泛化能力,以及如何将模型应用于更广泛的场景和任务中,推动智能体在复杂动态环境中的自主导航技术的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2341180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenCV颜色变换cvtColor

OpenCV计算机视觉开发实践:基于Qt C - 商品搜索 - 京东 颜色变换是imgproc模块中一个常用的功能。我们生活中看到的大多数彩色图片都是RGB类型的,但是在进行图像处理时需要用到灰度图、二值图、HSV(六角锥体模型,这个模型中颜色的…

Manus技术架构、实现内幕及分布式智能体项目实战

Manus技术架构、实现内幕及分布式智能体项目实战 模块一: 剖析Manus分布式多智能体全生命周期、九大核心模块及MCP协议,构建低幻觉、高效且具备动态失败处理能力的Manus系统。 模块二: 解析Manus大模型Agent操作电脑的原理与关键API&#xf…

下载油管视频 - yt-dlp

文章目录 1. yt-dlp与you-get介绍1.1 主要功能对比1.2 使用场景1.3 安装 2. 基本命令介绍2.1 默认下载视频2.2 指定画质和格式规则2.3 下载播放列表2.4 备注 3. 参考资料 之前只使用you-get下载b站视频,当时了解you-get也可下载油管视频,但之前无此需求&…

济南通过首个备案生活服务大模型,打造行业新标杆

近日,一则振奋人心的消息在人工智能领域传开:济南本土企业丽阳神州智能科技有限公司自主研发的 “丽阳雨露” 大模型成功通过国家网信办的备案。这一成果不仅是济南企业在科技创新道路上的重大突破,更标志着我国在生活服务领域的人工智能应用…

第6次课 贪心算法 A

向日葵朝着太阳转动,时刻追求自身成长的最大可能。 贪心策略在一轮轮的简单选择中,逐步导向最佳答案。 课堂学习 引入 贪心算法(英语:greedy algorithm),是用计算机来模拟一个「贪心」的人做出决策的过程…

Hexo+Github+gitee图床零成本搭建自己的专属博客

一个详细、完善的 Hexo 博客部署教程,不仅涵盖了基本的安装、配置、生成与部署步骤,还增加了常见问题的解决、主题设置、图片上传等 在开始之前可以看看我最终搭建出来的成果:https://liangjh.blog 1.安装git和nodejs 在Windows上使用Git&a…

数字信号处理技术架构与功能演进

数字信号处理(DSP)是通过数字运算实现信号分析、变换、滤波及调制解调的技术领域,其发展过程与技术应用如下: 一、定义与核心功能 技术定义:通过算法将模拟信号转换为数字形式进行处理,具有高精度、可编程…

深入理解 Android Handler

一、引言 Handler 在安卓中的地位是不言而喻的,几乎维系着整个安卓程序运行的生命周期,但是这么重要的一个东西,我们真的了解它吗?下面跟随着我的脚步,慢慢揭开Hanler的神秘面纱吧! 本文将介绍Handler 的运…

C++ 什么是隐式类型转换,什么是显式类型转换

在 C 中,​​类型转换​​是将一种数据类型的值转换为另一种数据类型的过程,分为 ​​隐式类型转换​​(由编译器自动完成)和 ​​显式类型转换​​(由程序员手动指定)。以下是它们的区别和示例&#xff1a…

NVIDIA 自动驾驶技术见解

前言 参与 NVIDIA自动驾驶开发者实验室 活动,以及解读了 NVIDIA 安全报告 自动驾驶 白皮书,本文是我的一些思考和见解。自动驾驶技术的目标是为了改善道理安全、减少交通堵塞,重塑更安全、高效、包容的交通生态。在这一领域,NVI…

【Flask】Explore-Flask:早期 Flask 生态的实用指南

开源项目:explore-flask/README.rst at master rpicard/explore-flask (github.com) 一、Coding conventions Summary Try to follow the coding style conventions laid out in PEP 8. Try to document your app with docstrings as defined in PEP 257. def…

【论文阅读21】-PSOSVM-CNN-GRU-Attention-滑坡预测(2024-12)

这篇论文主要提出并验证了一种新型的混合智能模型(PSOSVM-CNN-GRU-Attention),用于准确预测滑坡的点位移,并构建可靠的位移预测区间。通过对Baishuihe滑坡和Shuping滑坡的案例分析,展示了该模型的出色性能。 [1] Zai D…

蓝牙 6.0 发布,解锁无线科技新可能

在5G和Wi-Fi 7高速发展的时代,蓝牙技术始终以独特优势深度融入日常生活。从无线耳机到智能家居,它凭借低功耗、高兼容的特性,悄然连接各类智能设备,打造无缝的数字生活体验。无论是聆听音乐、智能门禁还是健康监测,蓝牙…

EasyCVR视频智能分析平台助力智慧园区:全场景视频监控摄像头融合解决方案

一、方案背景 在智慧园区建设的浪潮下,设备融合、数据整合与智能联动已成为核心诉求。视频监控作为智慧园区的“视觉中枢”,其高效整合直接影响园区的管理效能与安全水平。然而,园区内繁杂的视频监控设备生态——不同品牌、型号、制式的摄像…

为您的照片提供本地 AI 视觉:使用 Llama Vision 和 ChromaDB 构建 AI 图像标记器

有没有花 20 分钟浏览您的文件夹以找到心中的特定图像或屏幕截图?您并不孤单。 作为工作中的产品经理,我总是淹没在竞争对手产品的屏幕截图、UI 灵感以及白板会议或草图的照片的海洋中。在我的个人生活中,我总是捕捉我在生活中遇到的事物&am…

K8S节点出现Evicted状态“被驱逐”

在Kubernetes集群中,Pod状态为“被驱逐(evicted)”表示Pod无法在当前节点上继续运行,已被集群从节点上移除。 问题分析: 节点磁盘空间不足 ,使用df -h查看磁盘使用情况 可以看到根目录 / 已100%满&#x…

重学React(一):描述UI

背景:React现在已经更新到19了,文档地址也做了全面的更新,上一次系统性的学习还是在16-17的大版本更新。所以,现在就开始重新学习吧~ 学习内容: React官网教程:https://zh-hans.react.dev/lea…

遨游通讯发布国产化旗舰三防手机AORO AU1:以自主可控重塑工业安全

在全球产业链加速重构的背景下,国产化技术突破已成为工业领域高质量发展的核心驱动力。作为专精特新中小企业,遨游通讯始终以“让世界更安全、更高效、更简单”为使命,深耕“危、急、特”场景智能通信设备的研发。近日,遨游通讯正…

【Python】Selenium切换网页的标签页的写法(全!!!)

在使用selenium做网站爬取测试的时候,我们经常会遇到一些需要点击的元素,才能点击到我们想要进入的页面, 于是我们就要模拟 不断地 点点点击 鼠标的样子。 这个时候网页上就会有很多的标签页,你的浏览器网页标签栏 be like: 那…

DeepSeek和Excel结合生成动态图表

文章目录 一、前言二、3D柱状图案例2.1、pyecharts可视化官网2.2、Bar3d-Bar3d_puch_card2.3、Deepseek2.4、WPS2.5、动态调整数据 一、前言 最近在找一些比较炫酷的动态图表,用于日常汇报,于是找到了 DeepseekExcel王牌组合,其等同于动态图…