毫末AI DAY的智驾弹药:上有「世界模型」,下有3000元方案

news2025/6/24 6:23:15

作者 | 张祥威

编辑 | 德新

6a78ac2c959a51578e7b7d58ef007b5c.jpeg

「我们的感知能力可以说能做到识别万物了。」毫末智行在第九届毫末AI DAY上抛出这一豪言。

识别万物的底气,源于毫末的DriveGPT自动驾驶大模型引入了通用语义大模型,可以对交通参与者者、道路环境等做到全面感知。

今年是智驾获得公众接受度的关键节点

而明年,随着技术门槛更高的「无图」城市NOA落地,头部智驾头部玩家大概率会迎来收获期。毫末在自动驾驶大模型上的诸多准备,正是为迎接大战。

不止有进化的大模型,毫末还带来三款高级辅助驾驶产品HP170、HP370、HP570,剑指无图城市NOH、记忆行车等大热功能。

当下,毫末智驾方案已经在山海炮HEV版、新摩卡Hi-4S等车型上搭载,明年一季度,搭载毫末城市NOH功能的魏牌蓝山将量产交付

智驾大规模普及的时刻就要到来,毫末开始加快脚步。

与众多公司的科技日如特斯拉AI  DAY、蔚来NIO DAY相比,这届毫末AI DAY的既有前沿技术进展的分享,又有极具竞争力的落地方案,有诸多看点。


一、克制的智驾方案

AI DAY上,毫末一口气推出三款智驾方案产品,共同点是「极致性价比」。

  • HP170:算力5 TOPS,传感器方案标配1个前视相机、4个鱼眼相机、2个后角雷达、12个超声波雷达,支持选装1个前视雷达和2个前角雷达。
  • HP370:算力32 TOPS,传感器方案标配2个前视相机、2个侧视相机、1个后视相机、4鱼眼相机、1个前雷达、2个后角雷达、12个超声波雷达,支持选装2个前角雷达。
  • HP570:算力可选72 TOPS和100 TOPS两款芯片,传感器方案标配2个前视相机、4个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、12个超声波雷达,支持选配1颗激光雷达。

d9fd5659565346bfe8848ec7fbad16c8.jpeg

对比同行,这几套方案有以下特点:

首先,更低的芯片算力。

毫末采用基于5TOPS的芯片算力平台实现高速NOA,而实现城市NOA的方案,最高只需要要100TOPS的算力,比主流城市NOA智驾方案所需的算力都要低。

据HiEV了解,三套方案中的芯片分别为地平线征程3、TI的TDA4,以及高通Ride的SA8650芯片,这种高中低采用不同芯片方案的策略,也为量产搭载更多款车型提供了条件。

主流的智驾方案中,实现城市NOA通常需要两颗英伟达Oin X芯片,算力为508TOPS,少数玩家如智己、腾势,可以基于单颗英伟达Orin X芯片,算力为254TOPS。当然,更低算力的要属特斯拉的FSD,仅需144TOPS。

更低算力,意味着需要对算力有更极致地有效利用,同时要强化算法的能力。用更低的算力实现城市NOA,毫末的智驾技术水准和市场野心可见一斑。

其次,在传感器规模上也相对克制。

相较行业主流方案,毫末的智驾方案数量会更少一些。以搭载高阶智驾全享包的腾势N7作对比,这款车搭载33个传感器:

2个激光雷达、5个毫米波雷达、2个前视摄像头、4个环视摄像头、12个超声波雷达、4个侧视摄像头、1个后视摄像头、1个OMS摄像头、1个DMS摄像头、1个DVR摄像头。

毫末可以实现高阶智驾同等功能的HP570,传感器数量为24个,其缩减的部分是,方案中减少了毫米波雷达,而且激光雷达也并非标配。

最后,由于更低的算力的芯片,以及克制的传感器规模,还带来第三个特点,更低的BOM成本。

3ee01a818d4bde4d98eb08a98b0413f6.jpeg

毫末智行董事长张凯认为,「让中阶智驾便宜好用,让高阶智驾好用更便宜,是毫末未来一年提交给中国智驾市场的答卷。」

毫末的三款智驾产品,最低为3000元级别,最高的高阶自动驾驶方案大概8000元级别,这与现在动辄上万的智驾选装包相比,无疑颇具杀伤力。

HiEV了解到,毫末的最新方案中,HP170已经定点,配合整车开发和上市的节奏,预计会在明年初上市;HP550预计在明年上半年蓝山的下一代车型搭载上市,支持记忆行车和记忆泊车;HP370 预计明年Q4量产,而更新一代的HP570则会稍晚一些。

长线看,毫末的产品会全面平台化,提供高中低全系的智驾方案。

祭出成本更低的杀招,那么毫末的产品技术实力究竟如何呢?


二、可实现无图城市NOH,2024落地百城

一家公司的智驾能力,既体现在产品的上车规模和行驶里程,也体现在技术能够达到的广度和上限。

毫末的智驾方案HPilot产品已经搭载超过20款车型,用户辅助驾驶行驶里程突破8700万公里。由于起步不如蔚小理早,用户辅助驾驶行驶里程规模还不像对方那么庞大,但从搭载车型上,搭载车型规模是远超蔚小理的。

14cb2b5ce211df419f048b0b4a36444f.jpeg

毫末的技术能力能力广度和上限,体现在可实现的功能上。

顾维灏说,毫末可以做到在城市道路中时速最高70公里在50米的距离下,就能检测到大概35cm高的小目标障碍物,可以做到100%的成功绕障或刹停

下面一段视频,可见毫末智驾方案的技术能力。‍‍

面向L4的小魔驼,在城市开放道路进行无人驾驶时,也已经快于普通人骑自行车的速度。在行驶安全和通行效率上,均已达到商用状态

与那些从基于高精地图转为去高精地图方案的玩家相比,毫末一早确立了重感知轻地图的技术路线。

基于高精地图的技术路线,开头容易,之后要在不同城市落地时,会面临泛化挑战。而重感知轻地图的好处是,开始难,但越走越快,能完成更快的城市落地。

毫末的高速无图NOH功能,可以实现高速、城市快速路上的无图NOH,短距离记忆泊车等功能,并获E-NCAP 5星AEB的高安全标准认证

此外,毫末还可实现高速、城快,以及城市内的记忆行车,免教学记忆泊车、智能绕障等功能。高阶方案还支持无图记忆行车和泊车。 ‍ ‍ ‍ 

城市全场景无图NOH,则可实现全场景城市无图NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。

早期行业主打的智驾功能是高速NOA,之后是城市NOA,并在研发城市NOA时同步去掉高精地图,逐渐迈向今天的 去高精地图的“无图“阶段

眼下能做到无图的,仅有小鹏、华为、蔚来等少数几家。谁具备无图能力,基本上便是智驾第一梯队成员。

毫末三款智驾产品的推出,意味着其智驾方案出手即高点,广度覆盖了当下热门功能,上限与头部玩持平,让自身站位来到第一梯队。按照计划,毫末的城市NOH落地目标是100城

以上这些是毫末在乘用车NOH上的布局,会为明年智驾的普及大年做好准备。而之所以能在成立后短短几年做到无图等水平,离不开其核心,也是近几届AI DAY上常提到的自动驾驶大模型。

 

三、DriveGPT进化,可识别万物

38b935c0a9062033f3d63f85d387d9c9.jpeg

自动驾驶其实是让汽车学习人类驾驶,这需要感知道路上的各类交通参与者,处理真实世界中无穷无尽的突发状况,最终顺利抵达目的地。

行业惯常做法,是在云端建立一个自动驾驶生成式大模型,然后通过剪枝、蒸馏的方式,把云端大模型的能力下放到车端,从而让汽车像人类司机一样开车

9a0ad314c88b86495349653a8e068f39.jpeg

与人类大脑一样,自动驾驶生成式大模型也要不断进化。

今年的CVPR 2023,特斯拉和英国自动驾驶公司Wayve等均展示了自动驾驶大模型的新进展。

目前,特斯拉可以利用大模型生成连续视频,打造World Model即世界模型。

Wayve也在朝类似方向努力,其自动驾驶大模型GAIA-1,在通过持续扩展后已经拥有90亿个参数,可以生成驾驶场景视频,描述场景以及做出预测。

上月,Wayve还推出了视觉语言动作模型LINGO-1,可用于描述自动驾驶的行为和推理。

这些做法,直白地讲就是从原来仅学习文本,开始向看图、视频学习,从而与自动驾驶不断地更好融合。

根据毫末官方数据,目前团队已筛选出超过100亿帧互联网图片数据集,480万包含人驾行为的自动驾驶4D Clips。

毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标。

随着数据规模的增加,也为了更好地进入3.0时代,自动驾驶大模型需要不断进化。

感知模型中引入图文多模态大模型,以完成4D向量空间到语义空间的对齐,做到可以具备「万物识别」的能力,毫末将其称之为自动驾驶语义感知大模型

基于自动驾驶语义感知大模型,毫末还会通过构建驾驶语言来描述驾驶环境和驾驶意图,再结合导航引导信息和自车历史动作,借助LLM大语言模型做出驾驶决策。

2e3584e26cb90b4f7aba6c0656eb398b.jpeg

方向上,毫末正在沿着与特斯拉、Wayve同样的方向,让自动驾驶大模型拥有更多的学习进化途径,这相当于在建立自己的世界模型。

这一过程中,大模型的进化发生在多个方面:

早期,Transformer是用于自然语言处理(NLP)的大模型,主要应用于文本。之后Vision Transformer 又称ViT出现,主要用于图像。

直到后来,又出现Swin transformer,一种由微软提出的视觉领域的Transformer大模型。

在ViT图像大模型的基础上,Swin transformer进一步对图片进行图像分割,可以用于处理多视觉任务,更好地完成CV领域的目标检测和语义分割任务。

过去两年,毫末的视觉大模型的进化,与行业趋势一致,其CV Backbone先是从CNN模型全面切换到ViT,并又在今年全面升级到Swin transformer。

训练大模型方面,行业早期主要基于人工标注的单帧图片有监督,后来结合4D自动标注,再进一步升级到基于自动标注的4D Clip的有监督训练,到今天基于大规模数据的自监督学习训练,从而可以轻松吃下上百亿帧图片。

在毫末最新的模型中,已经可以采用视频生成的方式,通过预测生成视频下一帧的方式来构建4D表征空间,使CV Backbone学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息。

以上这些动作,主要解决了大模型领域的数据采集和标注效率低、泛化能力差等问题,解决的其他问题还包括:

  • 怎么做到高效、低成本地从上百亿的数据中,筛选出几万个有效数据;
  • 怎么做到从闭集到开集,可以标注任意物体;
  • 如何高效的场景迁移;
  • 怎样让驾驶行为具备可解释性等等。

毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标

总体上,这届AI DAY为毫末迈过自动驾驶3.0时代提供了更多弹药支持,从云端到车端做了充分准备。上有愈发聪明的自动驾驶大模型,下有性价比十足的智驾方案,毫末已经做好了明年智驾的卡位。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1086149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python pip安装超时使用国内镜像

网络环境差的时候需要我们独立的进行相对应的包下载离线安装,或者给pip 加上 国内的镜像源比如加上清华的镜像源: 参考网址:pypi | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror https://mirrors.tuna.tsinghua…

简单写个JS插件替换网页上的文本

背景: 使用Grafana监控面板,随着项目迭代,页面上几百个图表了,相当一部分和错误码有关,逐个图表单替换维护过于繁琐,于是尝试一键替换grafana面板上的错误码(也就替换网页上特定的文本元素),原…

禅道如何编辑项目模块

禅道是一个用于项目管理和软件开发的开源工具,它的主要作用包括: 1. 项目管理:禅道可以帮助项目团队进行任务分配、进度跟踪、沟通协作、测试管理等方面的工作,以确保项目能够按时完成。 2. 缺陷追踪:禅道可以记录和…

钉钉数字校园小程序开发:开启智慧教育新时代

随着信息技术的快速发展和校园管理的日益复杂化,数字校园已成为现代教育的重要趋势。钉钉数字校园小程序作为一种创新应用,以其专业性、思考深度和逻辑性,为学校提供了全新的管理、教学和沟方式。本文从需求分析、技术实现和应用思考三个方面…

JAVA学习第一天,java的运行方式

对未来很迷茫,不知道以后能出去干什么,好像掌握的东西很少,从今天开始学习学习java吧,让自己充实起来,记录一下。 jav…

QT快速下载

官网下载安装包后,打开命令行CMD,将qt安装包拖入cmd中 添加–mirror https://mirrors.tuna.tsinghua.edu.cn/qt 回车 按安装步骤安装即可

大模型评测指标与方法

中文大模型评测和英文评测方法是不一致的,原因: 第一、数据集的差异性。中文和英文的文本数据集在种类、规模、质量等方面存在很大的差异,需要针对中文特点开发相应的数据集,以确保评测结果的准确性和公正性。 第二、语言结构和…

计算机毕业设计选什么题目好?springboot 航司互售系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

M-LVDS收发器MS2111可pin对pin兼容SN65MLVD206

MS2111 是多点低压差分(M-LVDS)线路驱动器和接收器,经过优化可在高达 200 Mbps 的信令速率下运行。可pin对pin兼容SN65MLVD206。所有部件均符合 M-LVDS 标准 TIA / EIA-899。该驱动器输出已设计为支持负载低至 30Ω 的多点总线。 MS2111 的接收器属于 Type-2, 它们可…

一文拿捏对象内存布局及JMM(JAVA内存模型)

1 JMM(Java Memory Model) 1 概述 Java内存模型(Java Memory Model简称JMM)是一种抽象的概念,并不真实存在,它描述的一组规则或者规范。通过这些规则、规范定义了程序中各个变量的访问方式。jvm运行的程序的实体是线程,而每个线程运行时&am…

网页视频F12倍速看

首先在看视频的网页,点击F12,出现下方页面,其他页面不用管 方式一: document.querySelector("video").playbackRate"16"; 16指的是倍速,可随意修改 方式二: document.querySelecto…

203、RabbitMQ 之 使用 direct 类型的 Exchange 实现 消息路由 (RoutingKey)

目录 ★ 使用direct实现消息路由代码演示这个情况二ConstantUtil 常量工具类ConnectionUtil 连接RabbitMQ的工具类Publisher 消息生产者测试消息生产者 Consumer01 消息消费者01测试消费者结果: Consumer02 消息消费者02测试消费者结果: 完整代码&#x…

Centos8 openjdk升级

1、卸载旧版本 sudo dnf remove java-1.8.0-openjdk 2、搜索新版本 yum search java-11-openjdk3、安装新版本 dnf install java-11-openjdk.x86_644、验证新版本 java -version

Python+”高光谱遥感数据处理与机器学习深度应用丨高光谱数据预处理-机器学习-深度学习-图像分类-参数回归

涵盖高光谱遥感数据处理的基础、python开发基础、机器学习和应用实践。重点解释高光谱数据处理所涉及的基本概念和理论,旨在帮助学员深入理解科学原理。结合Python编程工具,专注于解决高光谱数据读取、数据预处理、高光谱数据机器学习等技术难题&#xf…

《UnityShader入门精要》学习2

UnityShader 基础 UnityShader 概述 一对好兄弟:材质和UnityShader 总体来说,在Unity中我们需要配合使用材质(Material)和Unity Shader才能达到需要的效果。一个最常见的流程是: (1)创建一个…

第 5 章 数组和广义表(稀疏矩阵的三元组顺序表存储实现)

1. 背景说明 为了节省存储空间&#xff0c;可以对这类矩阵进行压缩存储。所谓压缩存储是指&#xff1a;为多个值相同的元只分配一个存储空间&#xff0c;对零元不分配空间。 2. 示例代码 1)status.h /* DataStructure 预定义常量和类型头文件 */ #include <string.h>#i…

Adobe Premiere Elements 2024:轻松创建精彩视频的简化版专业工具

随着视频内容的日益流行和人们对高质量多媒体内容的需求不断增长&#xff0c;Adobe Premiere Elements 2024 成为了许多非专业视频编辑者首选的工具。这款软件究竟有何特别之处&#xff1f;本文将详细介绍 Adobe Premiere Elements 2024&#xff0c;并为您揭示它的简化版专业功…

Java集合(四) --- Map

好潦草的一篇文章&#xff0c;不想学习想摆烂了又 &#xff0c;凑合看 文章目录 一、Map的实现类的结构二、Map结构的理解三、HashMap的底层实现原理? 以jdk7的说明:四、Map中定义的方法五、总结&#xff1a;常用方法六、代码 提示&#xff1a;以下是本篇文章正文内容&#xf…

企业活动目录管理利弊

凡事都有利和弊&#xff0c;那么如何解决企业活动目录管理中的各种弊端呢&#xff1f; 首先Windows环境是目前企业使用率最高的网络环境&#xff0c;作为windows最核心的组件&#xff0c;活动目录&#xff08;AD域&#xff09;自然被很多企业使用&#xff0c;其主要作用就是更…