上交具身机器人的视觉运动导航!HTSCN:融合空间记忆与语义推理认知的导航策略

news2025/6/5 2:37:58

  • 作者:Qiming Liu 1 ^{1} 1, Guangzhan Wang 2 ^{2} 2, Zhe Liu 3 , 4 ^{3,4} 3,4 and Hesheng Wang 1 , 3 , 5 , 6 ^{1,3,5,6} 1,3,5,6
  • 单位: 1 ^{1} 1上海交通大学自动化系, 2 ^{2} 2上海交通大学软件学院, 3 ^{3} 3上海交通大学教育部人工智能重点实验室, 4 ^{4} 4人工智能研究院, 5 ^{5} 5教育部海洋智能装备与系统重点实验室, 6 ^{6} 6上海智能控制与管理工程技术研究中心
  • 论文标题:Visuomotor Navigation for Embodied Robots With Spatial Memory and Semantic Reasoning Cognition
  • 论文链接:https://ieeexplore.ieee.org/abstract/document/10682097
  • 出版信息:IEEE Transactions on Neural Networks and Learning Systems ( Volume: 36, Issue: 5, May 2025)

主要贡献

  • 统一的双层图结构:将记忆和推理能力分别表示为拓扑图和语义关系图,并在一个统一的双层图结构中进行处理。
  • 跨模态关系学习:引入基于神经的认知提取过程,捕捉层次化图之间的跨模态关系,增强了决策性能和整体智能水平。
  • 在线层次关系学习:通过图池化实现在线跨层关系学习,建立了两个不同认知模态之间的有机连接,充分利用综合认知对决策的增强效果。
  • 实验验证:在仿真和真实环境中验证了HTSCN的有效性,实验结果表明HTSCN在导航性能和路径效率方面显著优于现有的单模态认知导航方法。

研究背景

  • 在机器人自主导航领域,传统的基于几何环境建模和规划的方法虽然能够实现自主导航,但由于缺乏高层次的信息表示,难以支持主动思考和智能决策。
  • 近年来,基于神经网络的导航方法逐渐受到关注,这些方法通过模仿人类的认知过程,利用记忆和推理能力来提升导航性能。然而,现有研究大多只关注记忆或推理中的某一方面,而忽视了它们之间的有机联系。
  • 记忆和推理在功能和表示形式上存在显著差异,如何将它们有效地整合在一起,成为了一个亟待解决的问题。

相关工作

  • 基于学习的导航方法:传统导航技术基于几何环境建模和规划,虽然实现了自主导航,但缺乏高层次信息表示,难以支持主动思维和智能决策。近年来,基于神经网络的导航方法在探索、目标导向导航、图像目标导航和视觉-语言导航等任务中得到了广泛应用。
  • 空间记忆:记忆能力通过保存情景观察来创建场景表示。现有研究通过引入外部记忆结构(如RNN、LSTM、NTM等)来扩展机器人的时空视野。HTSCN框架采用拓扑图作为空间记忆结构,并在线构建拓扑图,利用图卷积网络(GCN)提取全局记忆特征。
  • 语义推理:推理能力基于长期先验经验进行任务目标的概率推断。现有研究通过构建语义关系图来提供先验知识,利用视觉关系检测和大规模图像数据集进行关系推理。HTSCN设计了一个双层图结构,将记忆和推理能力表示为拓扑图和语义关系图,并通过层次化学习实现两者的有机结合。
  • 记忆与推理能力的结合:现有研究大多单独考虑单一认知模态或将两者简单拼接,未能充分利用两者的协同效应。HTSCN通过层次化学习机制,在线融合记忆和推理能力,提升导航性能。

方法

  • 本文提出了一种名为分层拓扑-语义认知导航(HTSCN)的端到端视觉导航框架,旨在通过将空间记忆和语义推理能力无缝集成到一个统一的系统中,提升机器人在未知环境中的自主认知和决策能力。
  • HTSCN通过将记忆和推理能力分别表示为拓扑图和语义关系图,并在一个统一的双层图结构中进行处理,从而实现两者的有机结合。

基于拓扑图的空间记忆

基于检索网络的拓扑图构建
  • HTSCN采用拓扑图作为记忆结构,通过检索网络评估输入图像对的相似性,在线构建拓扑图并定位查询图像的节点。
  • 检索网络的架构处理两个RGB图像作为输入,生成一个从0到1的相似度评分,值越接近1表示感知相似度越高。机器人通过比较当前图像与每个节点观察的相似性来构建拓扑图。
拓扑记忆的节点特征

拓扑图由邻接矩阵 A [ M × M ] t A_{[M\times M]}^{t} A[M×M]t 和节点矩阵 X [ M × D ] t X_{[M\times D]}^{t} X[M×D]t 组成。邻接矩阵存储拓扑节点之间的连接关系,节点矩阵存储每个节点的向量,包含视觉信息、机器人定位向量和目标定位向量。具体编码如下:

  • 视觉观察:使用ResNet50提取并转换为256维视觉特征。
  • 机器人定位向量:通过比较当前观察与存储观察的相似性设置。
  • 目标定位向量:通过比较拓扑节点图像与目标图像的相似性设置。

记忆特征提取

利用三层GCN提取拓扑图中的空间记忆特征。第一层的输入为节点矩阵 X [ M × D ] t X_{[M\times D]}^{t} X[M×D]t,输出为:

H t ( 1 ) = σ ( F ( A [ M × M ] t , H t ( 0 ) , W t ( 0 ) ) ) H^{t(1)}=\sigma\left(F\left(A_{[M\times M]}^t, H^{t(0)}, W^{t(0)}\right)\right) Ht(1)=σ(F(A[M×M]t,Ht(0),Wt(0)))

其中, W t ( 0 ) W^{t(0)} Wt(0) 是可训练权重矩阵, σ ( ⋅ ) \sigma(\cdot) σ() 是激活函数, F ( ⋅ , ⋅ , ⋅ ) F(\cdot,\cdot,\cdot) F(,,) 表示图卷积操作。通过引入第二和第三层GCN进一步提取空间记忆特征,最终将节点特征转换为256维的记忆向量。

基于关系图的语义推理

语义关系图构建
  • 语义关系图是对象关系的结构化表示,节点表示对象类别,边表示它们之间的连接。
  • 通过获取模拟环境中的对象类别作为语义节点,并基于Visual Genome数据集建立节点之间的边。
  • 边的相关性通过对象在同一图像中的共现频率确定。
语义关系图的节点特征

语义关系图由邻接矩阵 A [ N × N ] s A_{[N\times N]}^{s} A[N×N]s 和特征矩阵 X [ N × d ] s X_{[N\times d]}^{s} X[N×d]s 组成。邻接矩阵存储对象之间的关系,特征矩阵包含视觉信息、目标对象信息和当前观察的检测结果编码。具体编码如下:

  • 对象图像:使用ResNet50提取并转换为256维视觉特征。

  • 目标对象信息:通过ResNet50提取目标对象的视觉特征。

  • 检测结果编码:从模拟器API获取当前观察中的语义标签,并转换为256维向量。

语义关系特征提取

利用三层GCN提取语义关系图中的语义关系特征。第一层的输入为节点特征矩阵 X [ N × d ] s X_{[N\times d]}^{s} X[N×d]s,输出为:

H s ( 1 ) = σ ( F ( A [ N × N ] s , H s ( 0 ) , W s ( 0 ) ) ) H^{s(1)}=\sigma\left(F\left(A_{[N\times N]}^s, H^{s(0)}, W^{s(0)}\right)\right) Hs(1)=σ(F(A[N×N]s,Hs(0),Ws(0)))

通过引入第二和第三层GCN进一步提取语义关系特征,最终将节点特征转换为256维的语义向量。

层次化关系学习

HTSCN通过在线融合语义关系图和拓扑图,实现记忆和推理能力的无缝集成。具体过程如下:

  • 生成分配矩阵S:通过粗图池化生成分配矩阵S,用于粗略聚类和合并语义关系图的N个节点。

  • 建立映射关系并生成关系矩阵C:基于分配矩阵S和拓扑图的邻接矩阵,生成两个图之间的关系矩阵C。

  • 提取层次化关系信息Z:通过GCN从双层关系图中提取层次化关系信息Z。

策略生成

  • 策略生成模块在每个时间步接收当前和目标观察,利用预训练的ResNet50提取视觉特征,并与认知特征Z结合,通过全连接层生成导航策略。
  • 在训练过程中,计算输出动作与专家指令之间的交叉熵损失,并结合两个辅助任务的损失优化整个网络。

实施

任务和超参数设置

  • 本文在iGibson仿真器中进行图像目标视觉导航任务,机器人需在最多500个时间步内到达目标位置。
  • 机器人配备单目RGB摄像头,分辨率为144×192,水平视场角为90°,动作空间包括左转15°、前进0.15米和右转15°。
  • 语义关系图节点数N设为26,拓扑图节点数M动态变化,其他参数如相似性比较阈值参考相关文献。

训练策略和测试设置

训练分为三个阶段:

  • 首先预训练检索网络,其次单独训练策略输出模块,最后联合训练整个HTSCN模型。
  • 第二和第三阶段通过模仿学习优化,收集72个训练场景中的3.12K个专家策略。
  • 测试在14个不同场景中进行,包含519个测试任务,难度分为简单、中等和困难三个等级。
  • 评估指标包括成功率(SR)、路径长度加权成功率(SPL)和成功距离(DTS)。

基线和消融模型

  • 比较了多种基线模型和消融模型的性能,包括Reactive、Nav A3C、HGCNN、VGM、TSGM、HTSCN及其消融模型(如仅使用空间记忆或语义推理的模型)。
  • HTSCN在所有难度等级的任务中均表现出显著的性能提升,特别是在困难任务中,成功率显著高于其他模型。

实验结果与分析

图像目标导航

  • 导航指标:
    • HTSCN在所有难度级别的任务中表现出显著的导航性能提升,成功率达到78.74%(简单)、56.58%(中等)和41.14%(困难),显著高于基线模型如Reactive和Nav A3C。
    • 与VGM和TSGM模型相比,HTSCN的成功率分别提高了28.18%和45.88%,在困难任务中,相对成功率提升进一步扩大到35.19%和89.49%。
  • 典型导航行为可视化:
    • HTSCN表现出更少的重复探索行为,并且在交叉路口更倾向于朝向目标移动,导航步数也更少,这与表格中的SPL得分一致。

可视化与解释结果

  • 拓扑记忆解释:
    • 通过辅助任务预测目标方向,验证了拓扑记忆模块能够有效提取和利用任务相关特征。
  • 语义推理解释:
    • 语义推理模块成功学习了利用语义关系图中的信息来优化导航策略,Grad-CAM分析显示网络注意力集中在与目标高度相关的对象上。
  • 层次关系学习解释:
    • 图融合操作有效学习了记忆和推理之间的跨模态关系,节点映射矩阵显示了语义节点和拓扑节点之间的连接概率。

实际场景部署

  • 真实世界测试:
    • 在Turtlebot机器人上部署HTSCN模型,使用Realsense D435i摄像头和Nvidia AGX Xavier平台,成功完成了导航任务,验证了系统的实际应用潜力。
  • 实时性能:
    • 在模拟环境中,HTSCN的推理速度为76.12ms,在真实环境中为160.61ms,满足实时性能要求。

实时性能

  • HTSCN在模拟和真实环境中的推理速度分别为76.12ms和160.61ms,尽管在真实环境中速度较慢,但仍能满足实时性能需求。

总体结论

  • 论文提出的HTSCN框架通过将空间记忆和语义推理能力无缝集成到一个端到端的系统中,显著提升了机器人在未知环境中的导航性能和路径效率。
  • 实验结果表明,HTSCN在仿真和真实环境中均表现出色,验证了其在实际应用中的潜力。
  • 未来的工作将致力于设计更统一的多模态认知表示方法,以进一步提高系统性能和效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2396744.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++并发编程01】初识C++并发编程

1、并发是什么 并发是指两个或更多独立的活动同时发生,现实生活中常见的并发场景如边吃饭边看手机。 1.1、计算机中的并发: 计算机领域的并发是指在单个系统里同时执行多个独立的任务,而非顺序的进行一些活动。 我们在电脑上能够边听音乐边和…

Mysql库的操作和表的操作

Mysql库和表的操作 库的操作1.查看数据库列表2.创建数据库3.使用数据库4.查看当前在那个数据库中5.显示数据库的创建语句6.修改数据库7.删除数据库8.备份和恢复数据库9.查看数据的连接情况(简单来说就是查看有多少人使用你的数据库) 表的操作1.创建表2.查看表结构3.修改表本身(…

LangChain-结合GLM+SQL+函数调用实现数据库查询(三)

针对 LangChain-结合GLM+SQL+函数调用实现数据库查询(二)-CSDN博客 进一步简化 通过 LangChain 和大语言模型(GLM-4)实现了一个 AI 代理,能够根据自然语言提问自动生成 SQL 查询语句,并连接 MySQL 数据库执行查询,最终返回结果。 整个流程如下: 用户提问 → AI 生成 SQ…

抖音商城抓包 分析

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 抓包展示 总结 1.出于安全考虑,本章未…

性能优化 - 案例篇:数据一致性

文章目录 Pre引言1. 分布式缓存概念2. Redis 与 Memcached 区别概览3. Spring Boot 中使用 Redis3.1 引入依赖与常用客户端3.2 RedisTemplate 的基本用法3.3 Spring Cache 注解式缓存 4. 秒杀业务简介及挑战5. Lua 脚本实现原子库存扣减5.1 准备阶段:数据预加载5.2 …

Spring框架学习day6--事务管理

Spring事务管理 Spring事务管理是在AOP的基础上,当我们的方法完全执行成功后,再提交事务,如果方法中有异常,就不提交事务 Spring中的事务管理有两种方式: ​ 1.编程式事务 ​ 需要我们在业务代码中手动提交 ​ 2.声明式…

免费酒店管理系统+餐饮系统+小程序点餐——仙盟创梦IDE

酒店系统主屏幕 房间管理 酒店管理系统的房间管理,可实现对酒店所有房间的实时掌控。它能清晰显示房间状态,如已预订、已入住、空闲等,便于高效安排入住与退房,合理分配资源,提升服务效率,保障酒店运营有条…

Git企业级项目管理实战

目录 1. 准备工作 2. 添加成员 2.1 添加企业成员 2.2 添加项目成员 2.3 添加仓库开发人员 3. 开发场景 - 基于git flow模型的实践 3.1 新需求加入 3.2 修复测试环境 Bug 3.3 修改预发布环境Bug 3.4 修改正式环境 Bug 3.5 紧急修复正式环境 Bug 4. 拓展阅读 4.1 其…

【实例】事业单位学习平台自动化操作

目录 一、创作背景: 二、实现逻辑: 三、代码分析【Deepseek分析】: 1) 主要功能 2)核心组件 2.1 GUI界面 (AutomationApp类) 2.2 浏览器自动化 2.3 平台特定处理 3) 关键技术 4)代码亮点 5)总结 四、运行截图: 五、程序代码: 特别声明:***本代码仅限编程学…

4.8.3 利用SparkSQL统计每日新增用户

在本次实战中,我们的任务是利用Spark SQL统计每日新增用户数。首先,我们准备了用户访问历史数据,并将其上传至HDFS。然后,通过Spark的交互式编程环境,我们读取了用户文件并将其转换为结构化的DataFrame。接着&#xff…

YOLOV7改进之融合深浅下采样模块(DSD Module)和轻量特征融合模块(LFI Module)

目录 一、研究背景​ 二. 核心创新点​ ​2.1 避免高MAC操作​ ​2.2 DSDM-LFIM主干网络​ 2.3 P2小目标检测分支​ ​3. 代码复现指南​ 环境配置 关键修改点 ​4. 实验结果对比​ 4.1 VisDrone数据集性能 4.2 边缘设备部署 4.3 检测效果可视化 ​5. 应用场景​ …

深度学习与神经网络 前馈神经网络

1.神经网络特征 无需人去告知神经网络具体的特征是什么,神经网络可以自主学习 2.激活函数性质 (1)连续并可导(允许少数点不可导)的非线性函数 (2)单调递增 (3)函数本…

NLP学习路线图(十四):词袋模型(Bag of Words)

在自然语言处理(NLP)的广阔天地中,词袋模型(Bag of Words, BoW) 宛如一块历经岁月沉淀的基石。它虽非当今最耀眼的明星,却为整个领域奠定了至关重要的基础,深刻影响了我们让计算机“理解”文本的…

鸿蒙进阶——Mindspore Lite AI框架源码解读之模型加载详解(一)

文章大纲 引言一、模型加载概述二、核心数据结构三、模型加载核心流程 引言 Mindspore 是一款华为开发开源的AI推理框架,而Mindspore Lite则是华为为了适配在移动终端设备上运行专门定制的版本,使得我们可以在OpenHarmony快速实现模型加载和推理等功能&…

【数据结构】图论核心算法解析:深度优先搜索(DFS)的纵深遍历与生成树实战指南​

深度优先搜索 导读:从广度到深度,探索图的遍历奥秘一、深度优先搜索二、算法思路三、算法逻辑四、算法评价五、深度优先生成树六、有向图与无向图结语:深潜与回溯,揭开图论世界的另一面 导读:从广度到深度,…

RESTful APInahamcon Fuzzies-write-up

RESTful API 路径详解 RESTful API(Representational State Transfer)是一种 基于 HTTP 协议的 API 设计风格,它通过 URL 路径 和 HTTP 方法(GET、POST、PUT、DELETE 等)来定义资源的访问方式。它的核心思想是 将数据…

2025年机械化设计制造与计算机工程国际会议(MDMCE 2025)

2025年机械化设计制造与计算机工程国际会议(MDMCE 2025) 2025 International Conference on Mechanized Design, Manufacturing, and Computer Engineering 一、大会信息 会议简称:MDMCE 2025 大会地点:中国贵阳 审稿通知&#…

Jmeter逻辑控制器、定时器

目录 一、Jmeter逻辑控制器 ①IF(如果)控制器 作用: 位置: 参数介绍: 步骤: ②循环控制器 作用: 位置: 步骤: 线程组属性VS循环控制器 ③ForEach控制器 作用: 位置&am…

R3GAN利用配置好的Pytorch训练自己的数据集

简介 简介:这篇论文挑战了"GANs难以训练"的广泛观点,通过提出一个更稳定的损失函数和现代化的网络架构,构建了一个简洁而高效的GAN基线模型R3GAN。作者证明了通过合适的理论基础和架构设计,GANs可以稳定训练并达到优异性能。 论文题目:The GAN is dead; long l…

吴恩达机器学习笔记(1)—引言

目录 一、欢迎 二、机器学习是什么 三、监督学习 四、无监督学习 一、欢迎 机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中,你不仅会学习机器学习的前沿知识,还将亲手实现相关算法,从而深入理解其内部机理。 事实上&…