WiseAD:基于视觉-语言模型的知识增强型端到端自动驾驶——论文阅读

news2025/5/10 2:48:00

《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》2024年12月发表,来自新加坡国立和浙大的论文。

在快速发展的视觉语言模型(VLM)中,一般人类知识和令人印象深刻的逻辑推理能力的出现,促使人们越来越有兴趣将VLM应用于高级自动驾驶任务,如场景理解和决策。然而,对知识水平(尤其是基本驾驶专业知识)与闭环自动驾驶性能之间关系的深入研究需要进一步探索。在这篇论文中,我们研究了基础驾驶知识的深度和广度对闭环轨迹规划的影响,并介绍了WiseAD,这是一种专为端到端自动驾驶量身定制的专用VLM,能够进行驾驶推理、动作论证、对象识别、风险分析、驾驶建议和跨不同场景的轨迹规划。我们对驾驶知识和规划数据集进行联合训练,使模型能够相应地执行知识对齐的轨迹规划。大量实验表明,随着驾驶知识多样性的扩大,严重事故显著减少,在卡拉闭环评估中,驾驶分数和路线完成率分别提高了11.9%和12.4%,达到了最先进的性能。此外,WiseAD在域内和域外数据集的知识评估方面也表现出了显著的性能。

研究背景与动机

自动驾驶技术近年来从传统规则系统转向端到端解决方案,但仍面临场景理解不足和驾驶知识利用不充分的问题。视觉语言模型(VLM)在通用知识和逻辑推理方面表现出色,但直接应用于自动驾驶时存在两大挑战:

  1. 驾驶导向知识不足:通用VLM缺乏对驾驶场景、经验和因果推理的深度理解。

  2. 知识与轨迹规划未对齐:现有方法多模仿预定义驾驶行为,缺乏对知识(如“减速以规避行人突然出现”)的显式嵌入,导致决策透明度低。

核心贡献

提出 WiseAD,一种专为自动驾驶设计的知识增强VLM,具备以下能力:

  • 多任务支持:场景描述、物体识别、风险分析、驾驶建议、轨迹规划等。

  • 联合训练策略:结合驾驶知识(LingoQA、DRAMA等)与轨迹规划(Carla数据集)进行联合学习,避免知识遗忘。

  • 性能提升:在Carla闭环评估中,驾驶分数(DS)提升11.9%,路线完成率(RC)提升12.4%,关键事故(碰撞、闯红灯)显著减少。


方法细节
  1. 模型架构

    • 视觉编码:基于CLIP ViT-L/14提取视频帧特征,投影为与文本对齐的视觉标记。

    • 语言模型:采用轻量级MobileLLaMA(1.7B参数),支持多模态输入(视频+文本)。

    • 输出对齐:轨迹规划结果以文本形式表达(如“下一个五个路径点为(x1, y1), (x2, y2)…”),便于利用VLM的逻辑推理能力。

  2. 数据构建

    • 驾驶知识:整合LingoQA(驾驶推理、物体识别)、DRAMA(风险分析、驾驶建议)、BDDX(动作解释)等数据集,覆盖多样化场景与任务。

    • 轨迹规划:使用Carla模拟器采集轨迹数据,目标点以文本形式输入(如“目标点为(x, y),生成后续五个路径点”)。

  3. 训练策略

    • 联合学习:混合知识问答与轨迹规划数据,避免分阶段训练导致的知识遗忘。

    • 注意力前缀提示:在推理阶段加入提示(如“注意周围环境,遵守交规”),显式引导模型调用驾驶知识。


实验结果
  1. 闭环驾驶性能(Carla评估)

    • SOTA对比:WiseAD在驾驶分数(69.88 vs 65.26)和路线完成率(93.79% vs 88.24%)上超越Roach、VAD等模型。

    • 关键事故减少:碰撞次数从2.35降至1.43,闯红灯次数从2.60降至2.14。

  2. 知识评估(零样本测试)

    • LingoQA:L-Judge评分60.4(对比LLaVA-7B的38.0),显示对驾驶知识的深度掌握。

    • 跨数据集泛化:在BDDX(动作识别)、DriveLM(物体识别)、HAD(驾驶注意力)任务中均表现优异。

  3. 消融实验

    • 注意力前缀提示:移除后路线完成率下降8.4%(93.79→85.35),验证其关键作用。

    • 知识广度影响:引入DRAMA风险分析数据后,驾驶分数提升3.08(66.02→69.88)。


创新点与意义
  1. 知识驱动的端到端框架:首次将VLM与驾驶知识深度融合,提升决策可解释性与安全性。

  2. 轻量化与高效性:基于MobileVLM(1.7B参数),适合实时自动驾驶场景。

  3. 数据与训练范式创新:通过混合训练与注意力提示,实现知识与规划的高效对齐。


未来方向
  • 扩展知识边界:引入更多长尾场景(如极端天气、复杂路口)的知识标注。

  • 多模态融合:结合激光雷达等多传感器数据,增强环境感知鲁棒性。

  • 实际部署验证:在真实道路测试中验证模型泛化能力与实时性。

WiseAD为自动驾驶领域提供了一种知识增强的新范式,通过显式嵌入驾驶逻辑与经验,推动端到端系统向“类人类驾驶”迈进。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2371976.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索SQLMesh中的Jinja宏:提升SQL查询的灵活性与复用性

在数据工程和数据分析领域,SQL是不可或缺的工具。随着项目复杂度的增加,如何高效地管理和复用SQL代码成为了一个重要课题。SQLMesh作为一款强大的工具,不仅支持标准的SQL语法,还引入了Jinja模板引擎的宏功能,极大地提升…

对Redis组件的深入探讨

目录 1、磁盘和内存 1.1、概念 1.2、区别 1.3、联系 2、redis基本特性 2.1、数据结构 2.2、性能 2.3、事件驱动架构 2.4、原子性 3、redis模型 3.1、单线程 3.2、事件驱动模型 3.3、epoll多路复用 4、数据持久化 4.1、RDB快照 4.2、AOF(Append Only…

Uni-app 组件使用

在前端开发领域,能够高效地创建跨平台应用是开发者们一直追求的目标。Uni-app 凭借其 “一次开发,多端部署” 的特性,成为了众多开发者的首选框架。而组件作为 Uni-app 开发的基础单元,合理运用组件能够极大地提升开发效率和代码的…

嵌入式学习笔记 - STM32 SRAM控制器FSMC

一 SRAM控制器内部结构图: 以下以512K SRAM芯片为例 二 SRAM地址矩阵/寻址方式: SRAM的地址寻址方式通过行地址与列地址交互的方式存储数据 三 STM32 地址映射 从STM32的地址映射中可以看出,FSMC控制器支持扩展4块外部存储器区域&#xff0…

数据封装的过程

数据的封装过程 传输层 UDP 直接将数据封装为UDP数据报​,添加UDP头部(8B)。 要点: UDP首部简单,无连接不可靠、无重传、无拥塞控制,适用于实时性要求较高的通讯;不需要源端口或不想计算检…

Docker部署常见应用之Superset

文章目录 使用 Docker 部署使用 Docker Compose 部署参考文章 以下是使用 Docker 部署 Superset 并将存储配置为 MySQL 的详细步骤: 使用 Docker 部署 获取Superset镜像: 使用Docker从官方仓库拉取Superset镜像:docker pull apache/superset:4.0.0创建 …

住宅 IP 地址:数字时代的真实网络身份载体

在互联网的底层架构中,IP 地址是设备连接网络的 “数字身份证”。而住宅 IP 地址作为其中最贴近真实用户的类型,特指互联网服务提供商(ISP)分配给家庭或个人用户的 IP 地址,具有以下核心特征: 物理关联性 …

[SSM]-Spring介绍

框架是什么 框架 framework 建筑学: 用于承载一个系统必要功能的基础要素的集合计算机: 某特定领域系统的一组约定, 标准, 代码库以及工具的集合 框架vs工具 框架作为项目的骨架合基础结构, 提供了高层次的抽象和可复用性工具作为辅助手段, 帮助开发者完成特定任务并提高工作…

今天的python练习题

目录 一、每日一言 二、练习题 三、效果展示 四、下次题目 五、总结 一、每日一言 晚上8点到的,还是会被感动到,有一位列车员同志在检票期间,叫我到列车员专座位上去坐,我很感激他,温暖人心,所以人间填我…

Mysql进阶篇1_存储引擎、索引、SQL性能分析指令

文章目录 1.存储引擎InnoDBMyISAMMemory存储引擎选择和对比 2.索引索引结构索引分类索引语法索引使用(建议看完第3节后观看)!!!mysql如何使用索引查询数据(个人理解) 3.SQL性能分析SQL执行频率慢…

协议(消息)生成

目录 协议(消息)生成主要做什么? 知识点二 制作功能前的准备工作 ​编辑​编辑 制作消息生成功能 实现效果 ​总结 上一篇中配置的XML文件可见: https://mpbeta.csdn.net/mp_blog/creation/editor/147647176 协议(消息)生成主要做什么? //协议生成 主要是…

Linux 系统的指令详解介绍

Linux 系统的指令详解介绍 一、指令的本质与定义1. 什么是指令?2. Linux 指令分类二、指令格式解析1. 基础语法结构2. 语法要素详解(1)选项类型(2)参数类型三、核心指令分类1. 文件操作指令2. 文本处理指令3. 系统管理指令一、指令的本质与定义 1. 什么是指令? 定义:在…

Milvus(17):向量索引、FLAT、IVF_FLAT

1 索引向量字段 利用存储在索引文件中的元数据,Milvus 以专门的结构组织数据,便于在搜索或查询过程中快速检索所需的信息。 Milvus 提供多种索引类型和指标,可对字段值进行排序,以实现高效的相似性搜索。下表列出了不同向量字段类…

芯片笔记 - 手册参数注释

芯片手册参数注释 基础参数外围设备USB OTG(On-The-Go)以太网存储卡(SD)SDIO 3.0(Secure Digital Input/Output)GPIO(General Purpose Input/Output 通用输入/输出接口)ADC(Analog to Digital C…

RabbitMQ学习(第二天)

文章目录 1、生产者可靠性①、生产者重连②、生产者确认 2、MQ可靠性①、数据持久化②、LazyQueue(惰性队列) 3、消费者可靠性①、消费者确认②、失败重试机制③、保证业务幂等性 总结 之前的学习中,熟悉了java中搭建和操作RabbitMQ发送接收消息,熟悉使用…

【JS逆向基础】爬虫核心模块:request模块与包的概念

前言:这篇文章主要介绍JS逆向爬虫中最常用的request模块,然后引出一系列的模块的概念,当然Python中其他比较常用的还有很多模块,正是这些模块也可以称之为库的东西构成了Python强大的生态,使其几乎可以实现任何功能。下…

LabVIEW燃气轮机测控系统

在能源需求不断增长以及生态环境保护备受重视的背景下,微型燃气轮机凭借其在经济性、可靠性、维护性及排放性等方面的显著优势,在航空航天、分布式发电等众多领域得到广泛应用。随着计算机技术的快速发展,虚拟仪器应运而生,LabVIE…

QT | 常用控件

前言 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:C_普通young man的博客-CSDN博客 ⏩ 本人giee: 普通小青年 (pu-tong-young-man) - Gitee.com 若有问题 评论区见📝 🎉欢迎大家点赞👍收藏⭐文章 —…

LLM论文笔记 28: Universal length generalization with Turing Programs

Arxiv日期:2024.10.4机构:Harvard University 关键词 图灵机 CoT 长度泛化 核心结论 Turing Programs 的提出 提出 Turing Programs,一种基于图灵机计算步骤的通用 CoT 策略。通过将算法任务分解为逐步的“磁带更新”(类似图灵…

AI日报 · 2025年5月07日|谷歌发布 Gemini 2.5 Pro 预览版 (I/O 版本),大幅提升编码与视频理解能力

1、谷歌发布 Gemini 2.5 Pro 预览版 (I/O 版本),大幅提升编码与视频理解能力 谷歌于5月6日提前发布 Gemini 2.5 Pro 预览版 (I/O 版本),为开发者带来更强编码能力,尤其优化了前端与UI开发、代码转换及智能体工作流构建,并在WebDe…