LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶飞跃——论文阅读

news2025/5/10 5:03:36

《LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking》2025年1月发表,来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文。

尽管自动驾驶技术取得了显著进步,但由于推理能力有限,数据驱动的方法仍然难以应对复杂的场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足的发展。本文提出了LeapVAD,这是一种基于认知感知和双过程思维的新方法。此方法实现了一种人类注意力机制,以识别和关注影响驾驶决策的关键交通因素。通过包括外观、运动模式和相关风险在内的综合属性来表征这些对象,LeapVAD实现了更有效的环境表示并简化了决策过程。此外,LeapVAD整合了一个创新的双过程决策模块,模拟了人类驾驶学习过程。该系统由一个通过逻辑推理积累驾驶经验的分析过程(系统II)和一个通过微调和少量学习完善这些知识的启发式过程(系统I)组成。LeapVAD还包括反射机制和不断增长的记忆库,使其能够从过去的错误中学习,并在闭环环境中不断提高其性能。为了提高效率,我们开发了一个场景编码器网络,该网络生成紧凑的场景表示,用于快速检索相关的驾驶体验。对CARLA和DriveArena这两款领先的自动驾驶模拟器进行的广泛评估表明,尽管训练数据有限,但LeapVAD的性能优于仅使用摄像头的方法。全面的消融研究进一步强调了其在持续学习和领域适应方面的有效性。

1. 研究背景与动机
  • 问题定义:现有自动驾驶技术中,数据驱动方法依赖大量标注数据且缺乏复杂场景下的推理能力,而知识驱动方法(如基于视觉语言模型VLM)虽具备一定推理能力,但评估方法多为开环测试,无法反映动态交互环境。

  • 核心挑战:如何构建一个能够持续学习、模仿人类认知过程的自动驾驶系统,以应对复杂场景和长尾问题。

  • 创新点:提出LeapVAD框架,融合认知感知(人类注意力机制)与双过程思维(分析过程System-II + 启发式过程System-I),结合记忆库和反射机制,实现闭环环境下的持续优化。


2. 方法论
框架组成

  1. 场景理解模块

    • 视觉语言模型(VLM):通过监督微调(SFT)生成关键交通对象的语义、空间、运动属性及行为推理描述(如车辆类别、位置、速度、风险等级)。

    • 多帧输入:支持多视角和多帧数据,捕捉动态属性(如速度趋势、运动方向)。

    • 数据结构:采用“总结-细化”格式,提升场景描述的全面性。

  2. 场景编码器

    • 目标:生成紧凑的场景标记(Scene Token),用于快速检索相似历史场景。

    • 对比学习框架:在动作空间(ACT,转向控制)和加速度空间(ACC,制动控制)中,通过对比学习优化特征表示。

    • 动量编码器:通过动量更新策略(MoCo风格)维护历史特征字典,支持大规模负样本对比。

  3. 双过程决策模块

    • 分析过程(System-II)

      • 基于LLM的逻辑推理,生成高质量驾驶决策(如变道、减速)。

      • 通过闭环实验积累经验至记忆库,支持知识迁移。

      • 反射机制:事故发生时,分析历史帧数据(描述、决策、推理),识别错误原因并生成修正策略,更新记忆库。

    • 启发式过程(System-I)

      • 基于轻量级LLM(如Qwen-1.8B),利用记忆库中的经验进行快速决策。

      • 少样本提示(Few-shot Prompting):通过检索相似场景的样本,减少幻觉(Hallucination)并提升泛化能力。

  4. 控制器

    • 元动作生成:输出高层指令(如“加速AC”“左变道LCL”)。

    • PID控制:通过轨迹规划和跟踪,将元动作转化为底层控制信号(转向、油门、刹车)。


3. 实验与验证
实验平台
  • CARLA:Town05短途与长途基准测试,评估驾驶分数(DS)、路线完成率(RC)、违规分数(IS)。

  • DriveArena:高保真仿真环境,验证跨域泛化能力。

主要结果
  1. CARLA性能

    • Town05短途:LeapVAD以仅1/73的数据量(41K vs. 3M)达到接近SOTA(94.95 vs. 88.19 DS),较前作LeapAD提升5.3%。

    • Town05长途:DS提升42.6%,显著优于纯视觉方法。

  2. DriveArena性能

    • 记忆库(CARLA训练)跨域迁移有效,ADS(驾驶分数)达45.52%,优于端到端方法(如VAD、UniAD)。

消融实验
  • VLM选择:Qwen-VL-7B在场景理解和推理能力上优于LLaVA和InternVL2。

  • 场景标记设计:“池化+状态”方案(Precision@1达87.52%)优于文本嵌入(OpenAI Embedding)。

  • 记忆库容量:容量越大(如4096),性能提升越显著。

  • 少样本提示:3-shot设置效果最佳,较零样本提升显著。


4. 创新与贡献
  1. 双过程思维:模仿人类驾驶学习过程(新手→专家),结合逻辑推理(System-II)与快速反应(System-I)。

  2. 高效场景表示:通过对比学习生成场景标记,提升检索效率与决策一致性。

  3. 持续学习机制:反射机制与动态记忆库实现闭环优化,支持跨域知识迁移(如CARLA→DriveArena)。

  4. 数据效率:仅需少量标注数据(41K)即可达到SOTA性能,显著降低数据依赖。


5. 局限与未来方向
  • 实时性:分析过程(System-II)依赖大模型推理,可能影响实时性,需进一步优化轻量化。

  • 复杂场景泛化:极端天气、密集交通等场景的泛化能力需验证。

  • 硬件部署:当前实验基于仿真环境,实际车载部署的算力与延迟问题待解决。


6. 结论

LeapVAD通过融合认知感知与双过程思维,构建了一个高效、可解释的自动驾驶框架。其核心创新在于模仿人类驾驶的持续学习机制,结合场景编码与记忆库技术,显著提升了复杂场景下的决策鲁棒性和数据效率。实验证明该方法在仿真环境中具有优越性能,为知识驱动自动驾驶提供了新的研究方向。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2372038.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows 部署 Kafka3.x KRaft 模式 不依赖 ZooKeeper

1.下载 https://archive.apache.org/dist/kafka/3.9.0/kafka_2.12-3.9.0.tgz2.配置使用 KRaft 模式 2.1 修改 Kafka 的配置文件 cd D:\data\bigdata\kafka_2.12-3.9.0\config\kraft 修改 server.properties # 设置 Kafka 数据日志存储目录 log.dirsD:\\data\\bigdata\\kaf…

Xilinx FPGA | 管脚约束 / 时序约束 / 问题解析

注:本文为 “Xilinx FPGA | 管脚约束 / 时序约束 / 问题解析” 相关文章合辑。 略作重排,未整理去重。 如有内容异常,请看原文。 Xilinx FPGA 管脚 XDC 约束之:物理约束 FPGA技术实战 于 2020-02-04 17:14:53 发布 说明&#x…

Python-JsonRPC

Python-JsonRPC 使用Python学习JsonRPC数据交互 1-核心知识点 1)什么是JsonRPC,这种协议是如何工作的?->使用请求进行验证2)JsonRPC可以使用Postman进行验证吗?->可以使用POSTMAN进行调用(使用HTTP请…

Redis从入门到实战——实战篇(下)

四、达人探店 1. 发布探店笔记 探店笔记类似于点评网站的评价,往往是图文结合。对应的表有两个: tb_blog:探店笔记表,包含笔记中的标题、文字、图片等tb_blog_comments:其他用户对探店笔记的评价 步骤①&#xff1…

面试问题(连载。。。。)

flexbox 和 crid 的区别 1. 布局维度与核心特性 Flexbox(弹性盒子) 一维布局:专注于行或列的线性排列,适合单方向(水平或垂直)的布局需求。动态分配空间:通过 flex-grow、flex-shrink 和 flex…

OpenCv实战笔记(1)在win11搭建opencv4.11.1 + qt5.15.2 + vs2019_x64开发环境

一. 准备工作 Visual Studio 2019(安装时勾选 C 桌面开发 和 Windows 10 SDK) CMake 3.20(官网下载) Qt 5.15.2(下载 Qt Online Installer)安装时勾选 MSVC 2019 64-bit 组件。 opencv 4.11.1 源码下载 git…

全局网络:重构数字时代的连接范式

从局部到全局 —— 网络架构的范式革命 在全球化与数字化深度融合的今天,传统网络架构的 “碎片化” 问题日益凸显:跨地域数据流通低效、设备互联孤岛化、安全策略难以统一。 全局网络作为一种突破地域与技术边界的新型网络架构,正成为企业…

C++ Primer (第五版)-第十四章重载运算与类型转换

文章目录 一、基本概念可以被重载某些运算符不应被重载尽量明智使用运算符重载赋值和复合赋值运算符选择作为成员或者非成员 输入和输出运算符输入运算符尽量减少格式化操作输入输出运算符必须是非成员函数 重载输入运算符>>输入时的错误标示错误 算数和关系运算符相等运…

鸿蒙开发——5.ArkUI @Builder装饰器:打造高效可复用的UI组件

鸿蒙开发——5.ArkUI Builder装饰器:打造高效可复用的UI组件 ArkUI Builder装饰器:打造高效可复用的UI组件一、Builder装饰器是什么?二、两种构建函数类型1. 私有自定义构建函数2. 全局自定义构建函数 三、参数传递核心规则1. 按值传递&#…

PyTorchVideo实战:从零开始构建高效视频分类模型

视频理解作为机器学习的核心领域,为动作识别、视频摘要和监控等应用提供了技术基础。本教程将详细介绍如何利用PyTorchVideo和PyTorch Lightning两个强大框架,构建基于Kinetics数据集训练的3D ResNet模型,实现高效的视频分类流程。 PyTorch…

SEMI E40-0200 STANDARD FOR PROCESSING MANAGEMENT(加工管理标准)-(二)

8 行为规范 8.1 本章定义监督实体(Supervisor)与加工资源(Processing Resource)为实现物料加工所需的高层级通信逻辑,不涉及具体消息细节(详见第10章消息服务)。 8.2 加工任务通信 8.2.1 加工…

根据窗口大小自动调整页面缩放比例,并保持居中显示

vue 项目 直接上代码 图片u1.png 是个背景图片 图片u2.png 是个遮罩 <template><div id"app"><div class"viewBox"><divclass"screen":style"{ transform: translate(-50%,-50%…

Android SDK 国内镜像及配置方法(2025最新,包好使!)

2025最新android sdk下载配置 1、首先你需要有android sdk manager2、 直接上教程修改hosts文件配置域名映射即可(不用FQ)2.1 获取ping dl.google.com域名ip地址2.2 配置hosts文件域名映射2.3 可以随意下载你需要的sdk3、 总结:走过弯路,踩过坑!!!大家就不要踩了!避坑1…

【Python开源】深度解析:一款高效音频封面批量删除工具的设计与实现

&#x1f3b5; 【Python开源】深度解析&#xff1a;一款高效音频封面批量删除工具的设计与实现 &#x1f308; 个人主页&#xff1a;创客白泽 - CSDN博客 &#x1f525; 系列专栏&#xff1a;&#x1f40d;《Python开源项目实战》 &#x1f4a1; 热爱不止于代码&#xff0c;热情…

OpenStack Yoga版安装笔记(26)实例元数据笔记

一、实例元数据概述 1.1 元数据 &#xff08;官方文档&#xff1a;Metadata — nova 25.2.2.dev5 documentation&#xff09; Nova 通过一种叫做元数据&#xff08;metadata&#xff09;的机制向其启动的实例提供配置信息。这些机制通常通过诸如 cloud-init 这样的初始化软件…

【Linux】swap交换分区管理

目录 一、Swap 交换分区的功能 二、swap 交换分区的典型大小的设置 2.1 查看交换分区的大小 2.1.1 free 2.1.2 cat /proc/swaps 或 swapon -s 2.1.3 top 三、使用交换分区的整体流程 3.1 案例一 3.2 案例二 一、Swap 交换分区的功能 计算机运行一个程序首先会将外存&am…

VirtualBox 创建虚拟机并安装 Ubuntu 系统详细指南

VirtualBox 创建虚拟机并安装 Ubuntu 系统详细指南 一、准备工作1. 下载 Ubuntu 镜像2. 安装 VirtualBox二、创建虚拟机1. 新建虚拟机2. 分配内存3. 创建虚拟硬盘三、配置虚拟机1. 加载 Ubuntu 镜像2. 调整处理器核心数(可选)3. 启用 3D 加速(图形优化)四、安装 Ubuntu 系统…

触想CX-3588工控主板应用于移动AI数字人,赋能新型智能交互

一、行业发展背景 随着AI智能、自主导航和透明屏显示等技术的不断进步&#xff0c;以及用户对“拟人化”、“沉浸式”交互体验的期待&#xff0c;一种新型交互终端——“移动AI数字人”正在加速实现规模化商用。 各大展厅展馆、零售导购、教学政务甚至家庭场景中&#xff0c;移…

【深入浅出MySQL】之数据类型介绍

【深入浅出MySQL】之数据类型介绍 MySQL中常见的数据类型一览为什么需要如此多的数据类型数值类型BIT&#xff08;M&#xff09;类型INT类型TINYINT类型BIGINT类型浮点数类型float类型DECIMAL(M,D)类型区别总结 字符串类型CHAR类型VARCHAR(M)类型 日期和时间类型enum和set类型 …

Vue3响应式:effect作用域

# Vue3响应式: effect作用域 什么是Vue3响应式&#xff1f; 是一款流行的JavaScript框架&#xff0c;它提供了响应式和组件化的视图组织方式。在Vue3中&#xff0c;响应式是一种让数据变化自动反映在视图上的机制。当数据发生变化时&#xff0c;与之相关的视图会自动更新。 作用…