AlphaDrive:通过强化学习和推理释放自动驾驶中 VLM 的力量

news2025/6/9 5:03:43

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

25年3月来自华中科技大学和地平线的论文

        OpenAI 的 o1 和 DeepSeek R1 在数学和科学等复杂领域达到甚至超越了人类专家水平,其中强化学习(RL)和推理发挥了关键作用。在自动驾驶领域,最近的端到端模型极大地提升了规划性能,但由于常识和推理能力有限,在处理长尾问题时仍然面临困难。一些研究将视觉语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于在驾驶数据上进行简单监督微调(SFT)的预训练模型,并未针对规划任务进一步探索专门的训练策略或优化方法。本文中,我们提出了 AlphaDrive,一个用于自动驾驶中视觉语言模型(VLMs)的强化学习与推理框架。AlphaDrive 引入了四种专门为规划任务定制的基于 GRPO 的强化学习奖励,并采用了一种结合监督微调(SFT)与强化学习(RL)的两阶段规划推理训练策略。其结果是,与仅使用监督微调(SFT)或不使用推理的方法相比,AlphaDrive 显著提升了规划性能和训练效率。此外,我们兴奋地发现,经过强化学习训练后,AlphaDrive 展现出一些涌现的多模态规划能力,这对于提升驾驶安全性和效率至关重要。据我们所知,AlphaDrive 是首个将基于 GRPO 的强化学习(RL)与规划推理集成到自动驾驶中的方法。我们将公开代码以促进未来的研究。


框架示意图: 

1. 核心问题与动机

  • 问题背景
    当前端到端自动驾驶模型虽在规划性能上有显著提升,但在长尾场景(如特殊交通标志、非常规障碍物)中表现不佳,主要受限于常识缺失推理能力不足

  • 现有方案的局限

    • 直接使用视觉语言模型(VLMs)进行轨迹预测,因 VLMs 的文本生成特性难以输出精确数值控制信号,存在安全风险。

    • 现有 VLM 驱动方法多依赖监督微调(SFT),未深入探索强化学习(RL)和推理技术对规划的优化潜力。


2. 创新方案:AlphaDrive框架

核心贡献
  1. 首个结合GRPO强化学习与规划推理的自动驾驶框架

    • 提出 GRPO(Group Relative Policy Optimization) 作为 RL 算法,优于 PPO/DPO,更适合多解规划场景。

  2. 四大规划导向的GRPO奖励函数

    • 规划准确性奖励:分速度/方向评估 F1-score。

    • 动作加权奖励:按安全重要性加权(如刹车 > 匀速)。

    • 规划多样性奖励:鼓励生成多可行解,避免模式坍塌。

    • 格式规范化奖励:确保输出结构化(<think>推理过程 + <answer>决策)。

  3. 两阶段训练策略

    • Stage 1(SFT 知识蒸馏)
      用 GPT-4o 生成高质量规划推理数据(伪标签),蒸馏至小模型,解决真实推理数据稀缺问题。

    • Stage 2(RL 探索优化)
      基于 GRPO 和四大奖励进一步优化,提升决策鲁棒性。

  4. 涌现的多模态规划能力

    • RL 训练后模型能生成多种合理驾驶方案(如直行时可选择匀速或加速),增强复杂场景适应性。


3. 关键技术细节

GRPO 的优势
  • 组优化策略:一次生成多组输出(如 4 个规划方案),通过组内奖励归一化计算优势值,适配规划问题多解特性。

  • 训练稳定性:相比 DPO/PPO,GRPO 在早期训练波动更小(参考 DeepSeek R1 的成功经验)。

奖励设计原理
奖励类型解决痛点设计方法
准确性奖励动作格式噪声导致早期训练不稳定分速度/方向计算 F1-score(非严格匹配)
动作加权奖励关键动作(刹车)安全权重不足按动作安全重要性动态加权(e.g., 刹车权重 > 加速)
多样性奖励输出收敛至单一解组内输出差异越大奖励越高(惩罚相似决策)
格式奖励非结构化输出难解析强制要求 <think>推理 + <answer>决策格式
两阶段训练必要性
  • SFT 阶段:解决小模型感知能力弱、早期 RL 幻觉问题(如忽略红绿灯)。

  • RL 阶段:引入稀疏奖励信号探索高质量决策,突破 SFT 性能天花板。


4. 实验结果与优势

性能对比(MetaAD 数据集)
模型规划准确率速度 F1↑方向 F1↑推理质量(CIDEr)
Qwen2VL-7B (SFT)61.44%73.8084.5330.65
AlphaDrive (2B)77.12%86.6386.8038.97
  • 关键优势

    • 仅用 20% 数据时,超越 SFT 基线 35.31%。

    • 小模型(2B)显著超越大模型(7B),验证框架高效性。

消融实验结论
  • 奖励缺一不可:移除动作加权奖励导致关键动作(减速)F1 下降 19%(表2)。

  • 推理的必要性:引入推理后复杂动作(加速/减速)F1 提升 10%(表3)。

  • 数据效率:50k 样本时 SFT+RL 已达 70.83% 准确率,纯 SFT 需 110k 样本(表4)。


5. 局限与未来方向

  • 局限

    • 无法处理变道(lane change)等高阶行为(缺乏标注数据)。

    • 推理数据依赖大模型伪标签,可能遗漏关键感知因素(如未识别施工标志)。

  • 未来方向

    • 构建真实驾驶推理数据集。

    • 扩展至多智能体交互场景。

    • 探索 3D 场景表示与 VLM 的深度结合(参考 OmniDrive)。


6. 总结

AlphaDrive 的核心价值在于:

  1. 方法创新:首次将 GRPO 强化学习与规划推理引入自动驾驶,突破 SFT 瓶颈。

  2. 性能突破:小模型实现 SOTA 性能,数据效率提升 5 倍。

  3. 安全增强:多模态规划能力为动态场景提供冗余决策方案。

  4. 开源意义:代码公开推动社区发展(GitHub: hustvl/AlphaDrive)。

启示:该研究证明,通用大模型的 RL 与推理技术可迁移至垂直领域(如自动驾驶),通过领域适配的奖励设计数据生成策略,解决小样本、长尾问题。 

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【八股消消乐】如何解决SQL线上死锁事故

&#x1f60a;你好&#xff0c;我是小航&#xff0c;一个正在变秃、变强的文艺倾年。 &#x1f514;本专栏《八股消消乐》旨在记录个人所背的八股文&#xff0c;包括Java/Go开发、Vue开发、系统架构、大模型开发、具身智能、机器学习、深度学习、力扣算法等相关知识点&#xff…

如何使用 HTML、CSS 和 JavaScript 随机更改图片颜色

原文&#xff1a;如何使用 HTML、CSS 和 JavaScript 随机更改图片颜色 | w3cschool笔记 &#xff08;请勿标记为付费&#xff01;&#xff01;&#xff01;&#xff01;&#xff09; 在网页开发中&#xff0c;为图片添加动态效果可以显著提升用户体验。今天&#xff0c;我将向…

CAN通信收发测试(USB2CAN模块测试实验)

1.搭建测试环境 电脑&#xff1a;安装 USB 驱动&#xff0c;安装原厂调试工具&#xff0c;安装cangaroo&#xff08;参考安装包的入门教程即可&#xff09; USB驱动路径&#xff1a;~\CAN分析仪资料20230701_Linux\硬件驱动程序 原厂调试工具路径&#xff1a;~\CAN分析仪资料2…

OSCP备战-BSides-Vancouver-2018-Workshop靶机详细步骤

一、靶机介绍 靶机地址&#xff1a;https://www.vulnhub.com/entry/bsides-vancouver-2018-workshop%2C231/ 靶机难度&#xff1a;中级&#xff08;CTF&#xff09; 靶机发布日期&#xff1a;2018年3月21日 靶机描述&#xff1a; Boot2root挑战旨在创建一个安全的环境&…

PDF转Markdown/JSON软件MinerU最新1.3.12版整合包下载

MinerU发布至今我已经更新多版整合包了&#xff0c;5天前MinerU发布了第一个正式版1.0.1&#xff0c;并且看到在18小时之前有更新模型文件&#xff0c;我就做了个最新版的一键启动整合包。 2025年02月21日更新v1.1.0版整合包 2025年02月27日更新v1.2.0版整合包 2025-06-05 更…

【深入学习Linux】System V共享内存

目录 前言 一、共享内存是什么&#xff1f; 共享内存实现原理 共享内存细节理解 二、接口认识 1.shmget函数——申请共享内存 2.ftok函数——生成key值 再次理解ftok和shmget 1&#xff09;key与shmid的区别与联系 2&#xff09;再理解key 3&#xff09;通过指令查看/释放系统中…

编程基础:执行流

能帮到你的话&#xff0c;就给个赞吧 &#x1f618; 文章目录 执行流同步&#xff1a;顺序执行&#xff0c;只有一个执行流异步&#xff1a;新开后台(次)执行流&#xff0c;后台执行流要确保不能影响主执行流。共有两个执行流。 阻塞&#xff1a;任务阻塞执行流&#xff0c;导致…

理解非结构化文档:将 Reducto 解析与 Elasticsearch 结合使用

作者&#xff1a;来自 Elastic Adel Wu 演示如何将 Reducto 的文档处理与 Elasticsearch 集成以实现语义搜索。 Elasticsearch 与业界领先的生成式 AI 工具和提供商有原生集成。欢迎观看我们的网络研讨会&#xff0c;了解如何超越 RAG 基础&#xff0c;或使用 Elastic 向量数据…

[面试精选] 0094. 二叉树的中序遍历

文章目录 1. 题目链接2. 题目描述3. 题目示例4. 解题思路5. 题解代码6. 复杂度分析 1. 题目链接 94. 二叉树的中序遍历 - 力扣&#xff08;LeetCode&#xff09; 2. 题目描述 给定一个二叉树的根节点 root &#xff0c;返回 它的 中序 遍历 。 3. 题目示例 示例 1 : 输入&…

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1]

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1] 学习机器学习&#xff0c;需要学习如何预处理原始数据&#xff0c;这里用到pandas&#xff0c;将原始数据转换为张量格式的数据。 1、安装pandas pip install pandas 2、写入和读取数据 >>创建一个人工…

2025年6月6日第一轮

2025年6月6日 The rapid in Chiese industdy is developnig e,and it is From be in a enjoy a deep is developing The drone industry in China is developing The drone industy in china develops rapidly and is in a leading position in in the world. The dro…

12-Oracle 23ai Vector 使用ONNX模型生成向量嵌入

一、Oracle 23ai Vector Embeddings 核心概念​ 向量嵌入&#xff08;Vector Embeddings&#xff09;​​ -- 将非结构化数据&#xff08;文本/图像&#xff09;转换为数值向量 - - 捕获数据的语义含义而非原始内容 - 示例&#xff1a;"数据库" → [0.24, -0.78, 0.5…

pytorch 与 张量的处理

系列文章目录 文章目录 系列文章目录一、Tensor 的裁剪二、Tensor 的索引与数据筛选torch.wheretorch.indicestorch.gathertorch.masked_selecttorch.taketorch.nonzero&#xff08;省略&#xff09; 三、Tensor 的组合与拼接torch.cattorch.stack 四、Tensor的切片chunksplit …

layer norm和 rms norm 对比

Layer norm # Layer Norm 公式 mean x.mean(dim-1, keepdimTrue) var x.var(dim-1, keepdimTrue) output (x - mean) / sqrt(var eps) * gamma beta特点&#xff1a; 减去均值&#xff08;去中心化&#xff09;除以标准差&#xff08;标准化&#xff09;包含可学习参数 …

Java高级 | 【实验六】Springboot文件上传和下载

隶属文章&#xff1a;Java高级 | &#xff08;二十二&#xff09;Java常用类库-CSDN博客 系列文章&#xff1a;Java高级 | 【实验一】Springboot安装及测试 |最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 Java高级 | 【实验三】Springboot 静…

VBA进度条ProgressForm1

上一章《VBA如何使用ProgressBar进度条控件》介绍了ProgressBar控件的使用方法&#xff0c;今天我给大家介绍ProgressForm1进度条的使用方法&#xff0c;ProgressForm1是集成ProgressBar控件和Label控件的窗体&#xff0c;可以同时显示进度条和百分比&#xff0c;如下图&#x…

行为型设计模式之Interpreter(解释器)

行为型设计模式之Interpreter&#xff08;解释器&#xff09; 前言&#xff1a; 自己的话理解&#xff1a;自定义一个解释器用来校验参数或数据是否合法。 1&#xff09;意图 给定一个语言&#xff0c;定义它的文法的一种表示&#xff0c;并定义一个解释器&#xff0c;这个解…

深入解析 CAS 操作

一、CAS 的本质&#xff1a;硬件级别的乐观锁 CAS&#xff08;Compare-And-Swap&#xff0c;比较并交换&#xff09; 是一种原子操作指令&#xff0c;用于实现对共享变量的无锁并发修改。它是现代多核处理器支持的底层硬件指令&#xff0c;也是构建高效并发数据结构&#xff0…

vue3+TS+eslint9配置

记录eslint升级到9.x的版本之后遇到的坑 在 ESLint 9 中&#xff0c;配置方式发生了变化。Flat Config 格式&#xff08;eslint.config.js 或 .ts&#xff09;不再支持 extensions 选项。所以vscode编辑器中的 extensions 需要注释掉&#xff0c;要不然保存的时候不会格式化。…

【bug】Error: /undefinedfilename in (/tmp/ocrmypdf.io.9xfn1e3b/origin.pdf)

在使用ocrmypdf的时候&#xff0c;需要Ghostscript9.55及以上的版本&#xff0c;但是ubuntu自带为9.50 然后使用ocrmypdf报错了 sudo apt update sudo apt install ghostscript gs --version 9.50 #版本不够安装的版本为9.50不够&#xff0c;因此去官网https://ghostscript.c…