论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

news2025/7/30 13:27:34

地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

摘要翻译

自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。相比之下,端到端自动驾驶系统因其完全数据驱动的训练过程有望避免误差累积,但其 “黑箱” 特性往往导致透明度不足,使得决策的验证和追溯复杂化。最近,大型语言模型(LLMs)已展现出上下文理解、逻辑推理和生成答案等能力。一个自然的想法是利用这些能力为自动驾驶赋能。通过将 LLM 与基础视觉模型相结合,有望实现当前自动驾驶系统所缺乏的开放世界理解、推理和小样本学习能力。本文系统综述了用于自动驾驶的(视觉)大型语言模型((V) LLM4Drive)的研究路线,评估了当前的技术进展状态,明确概述了该领域的主要挑战和未来方向。为了方便学术界和工业界的研究人员,我们通过指定链接(GitHub - Thinklab-SJTU/Awesome-LLM4AD)提供该领域最新进展的实时更新以及相关开源资源。

总结

1. 背景
  • 传统模块化系统:由感知、预测、规划等独立模块组成,虽在多种场景中提供可靠性和安全性,但存在信息丢失、计算冗余和模块间误差累积等问题。
  • 端到端系统:通过消除模块间的集成误差和减少冗余计算,增强了视觉和感官信息的表达,但决策过程缺乏透明度(“黑箱” 问题),解释和验证困难。
  • LLMs 的潜力:凭借强大的上下文理解、推理和生成能力,结合多模态模型(如图像、文本、点云等),可提升系统的泛化能力,支持零 / 小样本学习,有望解决自动驾驶的长尾问题并提供决策解释。
2. 动机
  • 数据与仿真的局限性:传统方法依赖大量数据和仿真,但仿真与现实存在差距(sim2real gap),且离线数据难以覆盖自动驾驶的长尾场景。
  • LLMs 的补充作用:利用 LLMs 内置的常识知识,可缩小数据缺口,提升系统在复杂场景下的推理能力,推动自动驾驶向人类专家水平靠近。

3. 应用场景
  • 规划与控制
    • 微调预训练模型:如 MTDGPT 将多任务决策转化为序列建模问题;DriveGPT4 基于多模态 LLM 生成控制信号并解释决策。
    • 提示工程:如 DiLu 通过记忆模块和 LLM 推理实现闭环驾驶;SurrealDriver 利用人类驾驶行为描述作为提示开发 “教练代理”。
  • 感知:LLMs 通过跨模态特征融合(如 PromptTrack 的语言提示与 3D 检测结合)或提示推理(如 HiLM-D 的风险目标定位)提升感知能力,尤其在数据稀缺场景下表现突出。
  • 问答(QA):涵盖传统 QA(如 Tang 等人的领域知识蒸馏)和视觉 QA(如 DriveLM 的图结构推理),支持实时场景理解和用户交互。
  • 生成:利用扩散模型(如 DriveDreamer、DrivingDiffusion)生成驾驶视频、交通场景或轨迹,用于数据增强和场景仿真,降低数据收集成本。
4. 数据集与评估基准
  • 数据集:如 BDD-X、NuScenes-QA、LingoQA 等,提供多模态标注(文本描述、QA 对、3D 边界框等),支持 LLMs 在自动驾驶中的训练和评估。
  • 评估基准:包括 LangAuto(CARLA-based)、LingoQA、DriveSim 等,覆盖场景理解、决策逻辑、安全性等多维度评估。
5. 挑战与未来方向
  • 挑战:计算效率(LLMs 推理时间长)、实时性要求、可解释性不足、数据质量(标注成本高)、安全性(对抗攻击)和伦理问题(隐私、偏见)。
  • 未来方向:轻量级 LLMs 优化、多模态融合(视觉 - 语言 - 传感器)、边缘计算部署、标准化评估指标、安全对齐(如形式化验证)和伦理框架建设。

一、相关技术方法

1. 规划与控制方法
  • 微调预训练模型
    • 核心思路:在预训练 LLMs 基础上,针对驾驶场景(如无信号交叉口决策、轨迹预测)进行微调,将驾驶任务转化为序列建模或语言生成问题。
    • 代表方法:MTDGPT 通过混合多任务数据集训练处理复杂决策;Agent-Driver 引入工具库和认知记忆增强推理;RAG-Driver 结合检索增强上下文学习,实现可解释的端到端驾驶。
  • 提示工程
    • 核心思路:通过设计特定提示(如 “思维链”、安全准则)激活 LLMs 的推理能力,无需大规模训练。
    • 代表方法:DiLu 利用记忆模块记录经验,通过多轮 QA 实现推理和反思;TrafficGPT 融合 ChatGPT 与交通基础模型,处理复杂交通问题;LanguageMPC 将 LLMs 与低级控制器结合,通过参数矩阵适应优化控制。
2. 感知方法
  • 跨模态融合:如 PromptTrack 将语言提示作为语义线索,融合到 3D 检测和跟踪任务中;LC-LLM 利用 LLMs 理解复杂场景,提升车道变更预测的可解释性。
  • 提示推理:如 HiLM-D 将高分辨率视觉信息输入多模态 LLMs,实现风险目标定位和意图预测;Context-aware Motion Prediction 结合 GPT-4V 的场景描述与传统模型,增强运动预测准确性。
3. 问答与生成方法
  • 问答
    • 传统 QA:通过 “聊天” 与 LLMs 构建领域知识本体(如 Tang 等人的交通规则蒸馏),支持实时交互和干预。
    • 视觉 QA:如 DriveMLM 利用多视图图像和点云生成高层决策命令;EM-VLM4AD 设计轻量级多帧视觉语言模型,提升问答效率。
  • 生成
    • 扩散模型:如 DriveDreamer 基于文本、图像和 HD 地图生成驾驶视频;CTG++ 通过 LLMs 将用户查询转化为损失函数,驱动扩散模型生成可控交通场景。
    • 场景仿真:ChatScene 利用 LLMs 生成安全关键场景,提升自动驾驶系统的鲁棒性;GenAD 利用网络数据和时间推理块,实现零样本场景泛化。
4. 评估与基准
  • 仿真环境:如 CARLA、nuPlan、HighwayEnv,用于测试 LLMs 在闭环驾驶中的性能(如碰撞率、轨迹拟合度)。
  • 指标体系:涵盖传统指标(如 L2 误差、mAP)和语言评估指标(如 BLEU-4、ChatGPT 评分),但缺乏统一标准,需进一步标准化。

二、评价指标

1. 传统指标
  • 规划与控制:轨迹跟踪误差(RMSE)、碰撞率、速度方差(SV)、时间效率(TE)。
  • 感知:mAP(平均精度均值)、3D检测准确率、目标定位误差(L2误差)。
2. 语言与多模态指标
  • 问答:BLEU-4、METEOR、CIDEr、SPICE(用于评估生成文本的语义准确性)。
  • 生成:FID(Fréchet Inception Distance)、CLIP分数(用于评估生成图像/视频的质量)。
3. 综合指标
  • 实时性:推理速度(如LLM-MPC在Jetson Orin上5.52秒/次)、控制频率(如MPC保持20Hz)。
  • 安全性:碰撞时间(TTC)、违规处罚(IP)、形式化验证通过率。

三、数据集

四、亟待解决的核心问题

1. 计算效率与实时性瓶颈
  • 挑战:LLM推理延迟高(如GPT-4V在复杂场景中需数秒),难以满足自动驾驶20Hz以上的控制频率需求。
  • 解决方案
    • 异步架构:如AsyncDriver将LLM推理与实时规划解耦,通过低频率高层决策指导高频控制。
    • 模型压缩:结合量化(如INT8量化)和知识蒸馏(如CoT-Drive),在保持性能的同时减少计算量。
2. 多模态融合的动态适应性
  • 挑战:静态融合方法无法应对数据分布变化(如传感器故障、极端天气),导致性能下降。
  • 解决方案
    • 动态融合机制:如DynMM通过门控函数动态选择模态组合,QMF利用不确定性估计实现质量感知融合。
    • 跨模态对齐:如3D MLLM架构通过稀疏查询统一视觉与语言的3D表示,提升场景理解一致性。
3. 数据质量问题
  • 挑战:合成数据的真实性不足(如纹理、物理特性差异),导致模型在真实场景中泛化能力弱。
  • 解决方案
    • 生成式仿真优化:如ChatSim结合神经渲染与扩散模型,提升场景的视觉和物理真实性。
    • 域适应技术:通过对抗训练(如CycleGAN)或元学习,缩小合成数据与真实数据的分布差异。
4. 可解释性与安全验证
  • 挑战:LLM的“黑箱”特性导致决策逻辑难以追溯,且存在幻觉问题(如错误识别障碍物)。
  • 解决方案
    • 可解释性增强:如DriveGPT4通过自然语言生成决策依据,GenFollower结合思维链(CoT)提示输出显式推理过程。
    • 形式化验证:如Hybrid Reasoning框架将LLM决策与传统控制器结合,通过逻辑推理验证安全性。
5. 伦理与社会接受度
  • 挑战:自动驾驶系统的决策可能引发伦理争议(如紧急避险时的优先级选择),且用户对AI驾驶的信任度不足。
  • 解决方案
    • 伦理框架设计:建立多利益相关方参与的评估体系,如SurrealDriver通过人类用户实验评估驾驶行为的人性化程度。
    • 透明交互界面:如Tang等人的领域知识蒸馏系统,通过实时问答增强用户对系统的理解与控制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2407012.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …

数学建模-滑翔伞伞翼面积的设计,运动状态计算和优化 !

我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态,并优化伞翼面积的设计。 一、问题分析 滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…

tauri项目,如何在rust端读取电脑环境变量

如果想在前端通过调用来获取环境变量的值&#xff0c;可以通过标准的依赖&#xff1a; std::env::var(name).ok() 想在前端通过调用来获取&#xff0c;可以写一个command函数&#xff1a; #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…

MyBatis中关于缓存的理解

MyBatis缓存 MyBatis系统当中默认定义两级缓存&#xff1a;一级缓存、二级缓存 默认情况下&#xff0c;只有一级缓存开启&#xff08;sqlSession级别的缓存&#xff09;二级缓存需要手动开启配置&#xff0c;需要局域namespace级别的缓存 一级缓存&#xff08;本地缓存&#…

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅

目录 前言 操作系统与驱动程序 是什么&#xff0c;为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中&#xff0c;我们在使用电子设备时&#xff0c;我们所输入执行的每一条指令最终大多都会作用到硬件上&#xff0c;比如下载一款软件最终会下载到硬盘上&am…

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …

【C++】纯虚函数类外可以写实现吗?

1. 答案 先说答案&#xff0c;可以。 2.代码测试 .h头文件 #include <iostream> #include <string>// 抽象基类 class AbstractBase { public:AbstractBase() default;virtual ~AbstractBase() default; // 默认析构函数public:virtual int PureVirtualFunct…

springboot 日志类切面,接口成功记录日志,失败不记录

springboot 日志类切面&#xff0c;接口成功记录日志&#xff0c;失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务&#xff0c;但是又不想花钱&#xff0c;所以就想着自己搭建一个&#xff0c;刚好我们用的一个开源框架已经集成了MinIO&#xff0c;所以就选了这个 我这边对文件服务性能要求不是太高&#xff0c;单机版就可以 安装非常简单&#xff0c;几个命令就…

Ubuntu系统复制(U盘-电脑硬盘)

所需环境 电脑自带硬盘&#xff1a;1块 (1T) U盘1&#xff1a;Ubuntu系统引导盘&#xff08;用于“U盘2”复制到“电脑自带硬盘”&#xff09; U盘2&#xff1a;Ubuntu系统盘&#xff08;1T&#xff0c;用于被复制&#xff09; &#xff01;&#xff01;&#xff01;建议“电脑…

认识CMake并使用CMake构建自己的第一个项目

1.CMake的作用和优势 跨平台支持&#xff1a;CMake支持多种操作系统和编译器&#xff0c;使用同一份构建配置可以在不同的环境中使用 简化配置&#xff1a;通过CMakeLists.txt文件&#xff0c;用户可以定义项目结构、依赖项、编译选项等&#xff0c;无需手动编写复杂的构建脚本…

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说&#xff0c;在叠衣服的过程中&#xff0c;我会带着团队对比各种模型、方法、策略&#xff0c;毕竟针对各个场景始终寻找更优的解决方案&#xff0c;是我个人和我司「七月在线」的职责之一 且个人认为&#xff0c…

协议转换利器,profinet转ethercat网关的两大派系,各有千秋

随着工业以太网的发展&#xff0c;其高效、便捷、协议开放、易于冗余等诸多优点&#xff0c;被越来越多的工业现场所采用。西门子SIMATIC S7-1200/1500系列PLC集成有Profinet接口&#xff0c;具有实时性、开放性&#xff0c;使用TCP/IP和IT标准&#xff0c;符合基于工业以太网的…

9-Oracle 23 ai Vector Search 特性 知识准备

很多小伙伴是不是参加了 免费认证课程&#xff08;限时至2025/5/15&#xff09; Oracle AI Vector Search 1Z0-184-25考试&#xff0c;都顺利拿到certified了没。 各行各业的AI 大模型的到来&#xff0c;传统的数据库中的SQL还能不能打&#xff0c;结构化和非结构的话数据如何和…

mac:大模型系列测试

0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何&#xff0c;是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试&#xff0c;是可以跑通文章里面的代码。训练速度也是很快的。 注意…

DBLP数据库是什么?

DBLP&#xff08;Digital Bibliography & Library Project&#xff09;Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高&#xff0c;数据库文献更新速度很快&#xff0c;很好地反映了国际计算机科学学术研…

Xela矩阵三轴触觉传感器的工作原理解析与应用场景

Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知&#xff0c;帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量&#xff0c;能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度&#xff0c;还为机器人、医疗设备和制造业的智…

DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

前言 在人工智能技术飞速发展的今天&#xff0c;深度学习与大模型技术已成为推动行业变革的核心驱动力&#xff0c;而高效、灵活的开发工具与编程语言则为技术创新提供了重要支撑。本书以两大前沿技术领域为核心&#xff0c;系统性地呈现了两部深度技术著作的精华&#xff1a;…

stm32wle5 lpuart DMA数据不接收

配置波特率9600时&#xff0c;需要使用外部低速晶振

Unity中的transform.up

2025年6月8日&#xff0c;周日下午 在Unity中&#xff0c;transform.up是Transform组件的一个属性&#xff0c;表示游戏对象在世界空间中的“上”方向&#xff08;Y轴正方向&#xff09;&#xff0c;且会随对象旋转动态变化。以下是关键点解析&#xff1a; 基本定义 transfor…