交大复旦 Bench2Drive-Speed:速度可控的自动驾驶评测基准

news2026/5/1 1:03:58
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Yuqian Shao 等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球导语端到端自动驾驶E2E-AD在闭环评测和复杂交通场景中已取得显著进展但“按照用户期望的速度行驶”这一关键能力仍缺乏统一且可量化的评测框架。为此Bench2Drive-Speed应运而生该基准在闭环环境中引入目标速度与超车/跟车指令配套提供数据集、可控性指标及基线模型并与现有 Bench2Drive 生态兼容实现速度、交通安全与舒适性等多维度的可量化的联合评测。实验显示通过对常规驾驶轨迹进行重标注生成的虚拟目标速度其训练效果可接近专家模型超参数下的表现同时研究也指出交互式超车行为仍然是端到端模型的一大挑战。图1Bench2Drive-Speed 引入目标速度指令与超车/跟车指令建立期望速度约束下的自动驾驶闭环基准。我们从速度跟踪、交互策略、舒适性与交通合规等维度量化模型的可控性。论文链接https://arxiv.org/abs/2603.25672v1项目链接https://thinklab-sjtu.github.io/Bench2Drive-Speed/问题缘起一个被忽视但很实用的问题自动驾驶能按你想要的速度开吗近年来端到端自动驾驶E2E-AD取得了显著进展模型已经能够在复杂路况下完成路线规划、遵守交通规则并保持较高的安全性。但在实际使用中一个非常直接、也很高频的需求却长期被忽略按用户期望的速度行驶例如“保持 60 km/h 巡航”超车或跟车例如“赶时间尽量超车”或“保守一点保持跟随”乍看之下这似乎只需要在模型输入中增加一个速度数值即可但在端到端学习策略中这远没有那么简单。主要挑战包括缺少明确监督信号。常规自动驾驶数据收集过程中通常没有“目标速度”标注模型学到的往往是数据分布下的平均速度而非可供用户显式调节的接口。安全与规则约束的权衡。追求用户指定速度时不能违反安全边界。模型需要判断何时可以遵从用户偏好何时必须让渡以保证安全与规则合规。长时序交互规划的复杂性。实现目标速度通常需要多步决策和交互规划例如变道或超车。这类行为在闭环中容易引发风险而且误差会随时间累积放大。舒适性与响应性的权衡。提高对用户命令的响应能力可能导致模型的频繁加减速或变道从而降低乘客舒适度。相比之下传统规划-控制PnC方法可以通过优化明确约束来强制遵守速度要求但这种保证并不自然地延伸到现代端到端模型中因为速度行为是从数据驱动策略中学习而来的。然而在此方面仍缺乏一个任务定义清晰、指标可量化、闭环可复现的评测框架。Bench2Drive-Speed来自交大和复旦的研究团队提出Bench2Drive-Speed面向“目标速度target speed超车/跟车overtake/follow”的端到端自动驾驶闭环基准并配套发布闭环评测框架核心技能指标训练数据集基线模型框架与现有Bench2Drive生态保持兼容可联合报告传统自动驾驶指标安全、完成率、舒适程度等。图2Bench2Drive-Speed 的整体设计指令化任务设定、2,100 场景数据集、可控性评测指标以及基线模型并保持与 Bench2Drive 生态兼容以联合分析多维度表现。明确的任务设置把“速度偏好”变成显式指令Bench2Drive-Speed 将用户的速度偏好和超车策略转化为端到端策略可理解的显式指令。具体包括两类高层命令目标速度指令Target Speed沿路线分段设定目标速度每段路可以不同实现动态速度控制。超车/跟车指令Overtake/Follow当遇到前方慢车时策略需选择“超车”或“保持跟车”使行为更符合用户意图。为了更精准诊断模型能力Bench2Drive-Speed 将场景按照难度分层Easy简单无干扰车辆主要考察速度跟踪能力。Medium中等存在行驶在前方的慢速车辆若要遵循目标速度需要策略进行交互动作如变道或超车。Hard困难复杂事件来自 CARLA Leaderboard v2 的 corner cases叠加交互要求全面考验自动驾驶策略在安全、效率与指令执行间的权衡能力。图3难度分层从 Easy 到 Hard目标速度遵从的难度逐步增加超车与跟车遵从仅在 Medium/Hard 场景中评测。指标设计首次系统化量化“可控性”有了显式指令就可以回答一开始的问题模型真的在按指令开吗为此Bench2Drive-Speed 提出两类可量化的核心指标同时保留传统 AD 评价维度实现可控性与安全、舒适的联合分析Speed-Adherence Score速度遵从测量闭环轨迹中实际速度与目标速度的贴合度。采用行驶距离加权方法避免停滞或采样不均造成偏差特殊地在跟车受前车速度限制时会合理地软化惩罚。Overtake Score超车/跟车遵从对每条路线中的超车或跟车场景进行成功率统计。未触发场景也计为失败防止模型通过规避难点刷分。此外Bench2Drive-Speed 还保留传统指标如安全性、交通规则遵守、路线完成率和乘客舒适度用于分析可控性与安全/舒适之间的trade-off。训练数据采集大规模带速度指令数据集为了训练和评估速度条件策略Bench2Drive-Speed 构建了Customized Speed Dataset2,100 个场景片段特点包括基于 CARLA 收集涵盖多城镇、多天气、多类复杂场景跨越不同难度等级及超车/跟车指令组合路线内指令可变化同一路段可能有不同目标速度和行为要求提高学习难度更贴近真实驾驶需求。这一数据集为研究速度可控策略提供了丰富、多样化、可复现的训练和测试资源。图4Customized Speed Dataset 的数据结构示意。数据包含视觉输入、车辆状态与标注信息并携带超车/跟车指令与目标速度指令。图5Customized Speed Dataset 中目标速度分布左与困难场景分布右来源 CARLA Leaderboard v2。现实中可scale up的数据标注方式虚拟目标速度Virtual Target Speed在使用模拟器中专家模型进行数据采集时可以很方便地获得专家模型超参中的 Cruising Speed 来用于训练。然而这些参数在真实世界数据中通常不可获得限制了速度可控策略的规模化训练。Bench2Drive-Speed 提出了Virtual Target Speed虚拟目标速度重标注方法可在常规轨迹数据上生成可用的速度监督信号从常规驾驶轨迹中提取短期未来的单调趋势速度tendency speed通过随机外推与裁剪生成更接近“目标”的速度信号同时降低信息泄露风险提供Short / Long两种外推策略便于系统研究稳定性与可控性实验证明使用虚拟目标速度训练的模型其速度遵循性能可接近基于专家系统的监督方法这意味着在大规模真实世界数据上训练速度可控策略是完全可行的。图6目标速度标注策略对比。专家示范监督精确但依赖内部超参现实中不可得重标注通过估算目标速度构造监督信号以支持规模化训练。基线模型TCP-Speed为了给社区一个明确参考Bench2Drive-Speed 提供了TCP-Speed基线模型将目标速度和超车/跟车指令作为额外输入引导轨迹生成和控制分支速度相关设计model-agnostic可迁移到其他端到端架构在闭环评测中展示了基本的速度遵循能力同时也揭示了交互式超车行为的挑战这一基线为研究者提供了可复现的实验框架同时为后续速度可控策略的改进和评估提供参考。图7TCP-Speed 基线概览。将目标速度与超车/跟车指令作为额外输入引导轨迹生成与控制。核心发现基于 Bench2Drive-Speed 的系统化实验有三点关键发现目标速度遵从可以被较好地学习。带有目标速度指令target speed的模型其闭环轨迹对用户指定速度的贴合程度明显高于未使用速度指令的模型说明速度可控性是可学习的。重要虚拟目标速度的监督效果接近专家水平。使用 Virtual Target Speed 重标注训练的模型其速度遵从表现与基于专家内部参数的监督相近表明速度控制监督可以在无需额外昂贵数据采集的情况下规模化地应用于训练。超车指令仍具挑战。尽管模型在“超车/跟车”指令上能表现出差异化行为但在复杂场景下稳定执行超车仍较困难这揭示了未来研究需要关注的交互决策与安全权衡问题。图8在同一路线上变更目标速度设定TCP-Speed 在该任务下展示出了良好的速度遵从能力。图9超车与跟车行为示例。上图为超车成功案例通过慢车并持续领先下图为跟车成功案例在指令约束下保持跟车并完成路线。图10Speed-Adherence Score 与 Overtake Score 在 48 条评测路线上的对比结果。可以发现在速度遵从方面专家参数(Expert)和虚拟重标注(Virtual)的监督效果相差无几。另外从传统的 Bench2Drive220 闭环指标中可以发现引入速度与交互式效率指令后模型的安全与任务完成能力并没有受到显著影响。图11在 Bench2Drive 的 220 条闭环评测路线上的传统规划表现Driving Score、Success Rate、Efficiency、Comfortness。可以发现相比原版 TCP同样数据集训练的 TCP-Speed 的传统闭环指标并没有下降。开源与使用Bench2Drive-Speed 的代码、数据集、评测框架及基线模型已全部开源https://github.com/Thinklab-SJTU/Bench2Drive-Speed社区可在该框架下测试速度遵从Speed Adherence与超车遵从Overtake Score等可控性指标接入更先进的端到端模型或交互策略推动“可控效率偏好自动驾驶”的进一步发展。为更直观地理解 Bench2Drive-Speed 的设计动机与训练细节我们公众号此前已特邀本文第一作者做客直播间进行深度拆解图文视频对照阅读帮助读者朋友们更快抓住技术重点。总结Bench2Drive-Speed 提供了完整的端到端速度可控驾驶研究体系包括闭环评测框架、可量化的速度与超车指标、2,100 条带指令的数据以及使用多种策略训练的基线模型。它将“开多快、要不要超车”转化为可训练、可闭环量化的任务并通过虚拟目标速度重标注使速度监督具备规模化应用的潜力。自动驾驶之心求点赞求分享求喜欢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2570489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…