车道线检测----CLRKDNet

news2025/7/16 7:03:44

今天的最后一篇 车道线检测系列结束

CLRKDNet:通过知识蒸馏加速车道检测

摘要:道路车道是智能车辆视觉感知系统的重要组成部分,在安全导航中发挥着关键作用。在车道检测任务中,平衡精度与实时性能至关重要,但现有方法往往顾此失彼。为此,我们提出了一种简化的模型 CLRKDNet,可在检测精度与实时性能之间取得平衡。最先进的模型 CLRNet 在多个数据集上均展现出卓越的性能,但由于其采用了特征金字塔网络(FPN)和多层检测头架构,计算开销较大。我们的方法简化了 FPN 结构与检测头,并重新设计了这两种架构,同时引入了一种新颖的师生蒸馏过程以及一系列新的蒸馏损失函数。这一组合方法可将推理时间最多缩短 60%,同时保持与 CLRNet 相当的检测精度。这种在精度与速度之间的战略性平衡,使 CLRKDNet 成为自动驾驶应用中实时车道检测任务的可行解决方案。代码和模型可在以下网址获取:

https://github.com/weiqingq/CLRKDNet。

一、引言

车道检测是智能交通(包括自动驾驶和高级驾驶辅助系统(ADAS))的关键组成部分。车道是道路交通的基本要素,划分了车辆行驶路径,有助于实现更安全、更顺畅的驾驶条件。检测方法主要分为基于模型和基于特征两类。基于模型的方法利用预定义的车道模型,将车道识别视为参数估计问题,这有助于降低对噪声的敏感性,并减少对大面积局部图像区域的依赖。相比之下,基于特征的方法将图像中的单个点分类为车道点或非车道点,依赖于边缘梯度、宽度、强度和颜色等特定特征。然而,这种方法需要清晰的车道边缘和强烈的颜色对比才能准确检测。这两种方法都遵循类似的步骤序列:感兴趣区域(ROI)提取、图像预处理、特征提取和车道拟合。随着深度学习技术的出现,传统车道检测方法大多被更先进的端到端深度学习方法所取代。这些现代方法消除了手动特征工程的需求,增强了检测系统的鲁棒性和有效性。当代车道检测技术可分为四类:基于分割的方法、基于参数曲线的方法、基于关键点的方法和基于锚点的方法。基于分割的方法将车道检测视为语义分割任务;基于参数曲线的方法使用曲线参数建模车道,通过参数回归进行检测;基于关键点的方法将车道检测视为关键点估计问题,随后进行整合;最后,基于锚点的方法使用线形锚点,回归这些预定义锚点的采样点偏移量。尽管深度学习技术在车道检测方面取得了相当大的进展,但仍有进一步提升的空间。车道线通常在图像中延伸很长的像素段,并且在局部尺度上具有与路面明显不同的特征,这凸显了提取全局和局部特征以实现准确检测的必要性。在 Zheng 等人的论文中,介绍了交叉层 refinement 网络(CLRNet),利用高级语义特征和低级细节特征。它首先使用高级特征进行粗略定位,然后通过细节特征进行 refinement,以实现精确的车道定位。ROIGather 模块通过将 ROI 车道特征与整个特征图链接起来,进一步捕获广泛的全局上下文信息,与以往方法相比显著提升了检测性能。然而,CLRNet 的复杂性,包括其特征金字塔网络(FPN)和多个检测头,增加了推理时间,阻碍了自动驾驶车辆所需的实时性能。为此,我们开发了 CLRKDNet,旨在减少推理时间的同时保持精度。CLRKDNet 简化了 FPN 架构,采用简化的特征聚合网络,并减少了检测头的数量,从而消除了迭代 refinement 过程。该模型以 CLRNet 为教师模型,引入了一种新颖的知识蒸馏程序,以提升简化的学生模型的性能,并抵消失败检测精度的潜在下降。这种多层蒸馏包括中间特征层、先验嵌入和检测头 logits,确保 CLRKDNet 在显著更快的速度下实现与 CLRNet 相当的检测精度。更多详细信息,请参见第三部分的方法部分。我们通过对 CULane 和 TuSimple 数据集进行广泛实验来验证所提方法的改进,并报告了这两个数据集上的最新结果。此外,全面的消融研究证实了框架中每个组件的有效性。我们的主要贡献总结如下:

  • 我们通过简化 CLRNet 中的特征增强模块并减少检测头的数量,显著提高了计算效率,使推理速度最多提高了 60%。

  • 我们提出了一种新颖的知识蒸馏技术,其中简化的学生模型 CLRKDNet 利用教师模型 CLRNet 的中间特征层、先验嵌入和最终检测头 logits 来提升其车道检测能力。

  • 我们在多个车道检测数据集上进行了广泛的实验,以验证所提方法 CLRKDNet 的有效性,并进行了全面的消融研究,以验证每个模块对模型性能的贡献。

二、相关工作

(一)车道检测

  1. 基于分割的方法 :基于分割的方法将车道检测视为像素级分类任务,将车道线区域与背景分开。例如,SCNN 利用语义分割框架和消息传递机制来改善车道检测中的空间关系,但其实时应用受到速度限制。同样,RESA 通过实时特征聚合模块提升性能,但由于像素级处理,计算需求仍然较高。

  2. 基于锚点的方法 :基于锚点的方法依赖预定义的线或行锚点来引导车道检测。Line-CNN 和 LaneATT 使用带注意力机制的线锚点来提高准确性和效率。相反,行锚点方法如 UFLD 和 CondLaneNet 具有简单和快速的优点,但在复杂场景中由于难以准确识别初始车道点而可能表现不佳。CLRNet 及其扩展工作提出了一种跨层优化的车道检测网络,使用高级特征检测车道线,并利用低级特征调整车道线位置。

(二)知识蒸馏

知识蒸馏涉及将复杂且通常笨重的模型的见解转移到更紧凑、计算效率更高的模型,从而提升小型模型的性能和泛化能力。该技术最初由 Hinton 等人在 2015 年提出。多年来,它发展出许多方法,包括采用软标签和定制损失函数来优化学习过程。在计算机视觉中,知识蒸馏显著提升了小型模型在目标检测、图像分类和分割等各种任务中的能力。在车道检测领域,Hou 等人引入了自注意力蒸馏(SAD),采用自上而下和层次化的注意力蒸馏来增强表示学习和模型效能。值得注意的是,我们的蒸馏方法优于 SAD,在 CULane 数据集上的 F1 分数比其高出近 10 个百分点。

三、方法

(一)CLRKDNet

  1. 教师模型 :我们的方法采用复杂的 CLRNet 架构作为教师模型,它集成了 ResNet 或 DLA 等稳健的主干网络。这种集成使主干网络能够提取深度特征,然后由特征金字塔网络(FPN)处理,生成不同分辨率(包括输入图像尺寸的 1/8、1/16 和 1/32)的多尺度特征图,从而全面表示全局内容和局部细节。CLRNet 通过配置具有可学习参数(xi,yi,θi)的先验来启动车道检测,其中(xi,yi)定义起始坐标,θi 是相对于 x 轴的方向。符号 i 表示 M 个先验中的一个,M 表示先验的总数。这些先验对于识别潜在车道路径至关重要,通过在不同尺度的各种卷积层和全连接层中进行处理。如图 2 所示,这种多层处理生成分类和回归输出以调整先验。模型经过三次 refinement 循环,这些调整利用更高分辨率的特征图重新校准先验。交叉注意力机制在整个过程中整合上下文信息,最终精确计算多个水平行的 x 坐标以描绘车道路径。为应对车道检测的复杂性,CLRNet 采用全面的损失函数 L,结合 smooth L1 进行先验 refinement,focal loss 进行分类,以及交叉熵损失进行分割。此外,专门设计的 LineIoU 损失函数专门增强车道预测的交并比(IoU)度量,提升模型精度。

  2. 学生模型 :CLRKDNet 是 CLRNet 的简化版本,旨在满足自动驾驶应用对实时性的高要求,同时管理车道检测性能。它利用 CLRNet 的先进网络设计,包括其主干网络和检测头机制,但在架构上进行了显著优化以提高效率。在特征增强部分,CLRNet 通过 FPN 整合多尺度语义丰富的特征,而我们的 CLRKDNet 部署了一个轻量级特征聚合网络以减轻计算负担。如图 2 所示,该网络专门设计用于压缩从主干网络提取的特征的通道大小,增强特征的表示质量而不增加计算负担。这一创新不仅大幅减少了权重参数数量,还缩小了计算占用空间,使特征集成过程更快速。CLRKDNet 的检测头也经过了效率优化。与 CLRNet 的多个检测头和可学习先验(需要大量计算资源进行迭代 refinement)不同,我们的 CLRKDNet 采用单个检测头与固定先验集。该单检测头利用一组静态先验,不进行昂贵的迭代 refinement 过程。图 3 展示了单检测头的结构。实验分析表明,这种简化使 CLRKDNet 的推理速度最多提高了 60%,而评估分数仅略有下降。通过知识蒸馏进一步补偿了由于简化架构导致的检测性能下降。我们提出的知识转移方法利用从教师模型 CLRNet 的中间层蒸馏出的见解,以及先验和检测头的最终输出。通过这种多阶段蒸馏过程,我们的 CLRKDNet 模型以较低的计算成本接近 CLRNet 设定的基准。

二)注意力图蒸馏

  1. 激活注意力转移 :在车道检测模型中,知识蒸馏通过基于激活的注意力机制实现。对于卷积神经网络的第 n 层,我们提取激活输出,表示为 An ∈ RCn×Hn×Wn,其中 Cn、Hn 和 Wn 分别对应激活张量的通道数、高度和宽度。为了将教师模型的知识蒸馏到学生模型,我们从这些激活张量中生成空间注意力图。这些图作为浓缩表示,突出显示模型认为输入图像中最关键的区域。通过应用映射函数 Gsump(An)= ΣCn j=1 |An,j|p,其中 An,j 表示 An 在通道维度上的第 j 个切片,p > 1,来蒸馏这些注意力图。参考其他文献,我们选择 p = 2 以加强关注最显著的特征,从而引导学生模型的注意力方向,类似于教师模型的方向。图 2 展示了这一注意力图蒸馏过程。在整个训练阶段,学生模型的注意力图逐渐调整以匹配教师模型的注意力图,并通过损失函数最小化差异。

  2. 注意力转移损失在车道检测模型中,注意力图的蒸馏通过注意力转移损失函数量化,该函数专门测量学生模型和教师模型注意力图之间的差异。对于集合 N(表示每个教师 - 学生激活层对的索引)中索引为 n 的每一层,首先将学生模型的注意力图 ASn 和教师模型的注意力图 ATn 转换为向量形式,分别表示为 QS n 和 QT n。这些向量形式是通过将激活张量应用映射函数 G 并将得到的注意力图重塑为向量产生的。 Latt = Σn∈N ||QS n / ||QS n||2 − QT n / ||QTn||2||p 其中 QS n = vec(G(ASn))和 QT n = vec(G(ATn))分别是学生模型和教师模型第 n 对注意力图的向量化形式。||・||2 表示 ℓ2 范数,用于标准化每个向量化的注意力图,确保损失计算不受注意力图尺度的影响,仅关注其模式。参数 p 设置为 2,与注意力图计算中使用的二次映射函数 G 一致,这已被证明可以有效促进知识转移。

(三)检测头上的知识转移

在注意力图蒸馏过程之后,我们旨在进一步提高检测精度并缩小模型之间的差距。为此,我们提出了一种用于检测头的双重蒸馏程序,包括先验嵌入蒸馏和 logits 蒸馏。这些机制确保 CLRKDNet 尽管架构简化,仍能有效保留教师模型 CLRNet 的复杂检测能力。先验嵌入蒸馏使学生模型的先验与教师模型的精炼输出对齐,而 logits 蒸馏则测量并最小化输出 logits 的差异,引导 CLRKDNet 的预测尽可能接近 CLRNet 的预测。先验嵌入蒸馏:CLRNet 和 CLRKDNet 都使用嵌入先验初始化其检测头,这些先验定义了车道线的几何参数,包括初始坐标(xi,yi)和相对于 x 轴的方向 θi。这些先验和由主干网络和特征融合网络生成的特征图引导 ROI 模块为每个车道像素准确收集附近的特征。这一收集过程结合全局内容和丰富的语义信息,确保全面的检测能力。虽然 CLRNet 在其检测头的各个层中迭代地精炼这些先验,但 CLRKDNet 直接使用一组这些先验进行检测输出。通过比较学生模型的初始先验和教师模型的精炼先验之间的嵌入来完成这些先验的蒸馏。具体而言,嵌入被格式化为 [M,3] 维度的张量,其中 M 表示初始先验的数量,使用 L2 范数损失函数进行比较: Lprior = ΣM i=1 ||Pi S − Pi T ||2 其中,Pi S 和 Pi T 分别表示学生模型和教师模型的第 i 个先验向量,每个向量都包含初始坐标和方向(xi,yi,θi)。这种 L2 范数比较测量每对对应先验之间的欧几里得距离,有效使 CLRKDNet 的静态先验与 CLRNet 的动态精炼先验对齐。这种对齐确保学生模型从与教师模型迭代过程输出相当的精炼水平开始,有效弥合了两种模型在动态精炼能力上的差距。Logit 蒸馏:Logit 蒸馏关注检测头的最终输出,在将模型输出转换为预测线之前。如图 3 所示,这些 logits 包括分类分数和几何特征,例如起始坐标(xi,yi)、方向 θi、车道长度 li 以及预测车道与车道先验之间的水平偏移差 ∆xi。Logit 蒸馏过程包括将学生模型检测头的逻辑输出与教师模型的逻辑输出进行比较,并计算均方误差(MSE)以测量和最小化它们之间的差异。这种损失确保 CLRKDNet 的简化检测头(缺乏 CLRNet 的多个精炼阶段)仍能产生高精度的输出。MSE 对大差异敏感,特别有效微调学生模型的输出以尽可能接近教师模型的输出,从而补偿了迭代精炼层的缺失。这种特定损失表示为: Llogit = 1/M ΣM i=1 [(xi S − xi T )² + (yi S − yi T )² + (θi S − θi T )² + (li S − li T )² + (∆xi S − ∆xi T )²] 其中 M 是先验的数量。xi S,yi S,θi S,li S,∆xi S 是学生模型检测头的几何输出,包括起始坐标、方向、长度和水平差异。xi T,yi T,θi T,li T,∆xi T 是教师模型的相应输出。

损失函数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从技术视角解构 Solana Meme 币生态

在高吞吐、高并发的 Solana 网络上,一类轻量化、高热度的代币形式正在爆发式增长——Meme Token(迷因代币)。尽管起源于社群文化,但其技术实现并非“玩笑”,而是一整套构建于 Solana Runtime 与 Token Extensions 之上…

智能接处警系统:以秒级联动响应重塑应急处置效能

​​随着我国能源、化工、航空等关键行业的快速发展,传统消防管理模式已难以满足高效应急响应的需求。国家能源局、应急管理部、民航总局均出台专项规定,对消防站建设提出更高要求,在此背景下,智能接处警系统正是应对这些挑战的核…

GpuGeek 网络加速:破解 AI 开发中的 “最后一公里” 瓶颈

摘要: 网络延迟在AI开发中常被忽视,却严重影响效率。GpuGeek通过技术创新,提供学术资源访问和跨国数据交互的加速服务,助力开发者突破瓶颈。 目录 一、引言:当算力不再稀缺,网络瓶颈如何破局? …

C# DataGridView 选中所有复选框

问题描述 在程序中尝试选中所有复选框,但出现错误。如果单击顶部的完整选中/释放复选框,同时选中包含复选框的列,则选定区域不会改变。该如何解决? 上面的图片是点击完整版本之后的。 下面是本文的测试代码,函数 dat…

AB Download Manager v1.5.8 开源免费下载工具

下载文件是我们日常工作和生活中经常进行的操作。面对动辄数十GB的4K影片、设计素材包或开发工具,传统浏览器的单线程下载如同"涓涓细流",非常影响我们的效率和体验。 那么,一款高效且易用的下载工具至关重要。今天就让我们解锁这…

深度剖析:Dify+Sanic+Vue+ECharts 搭建 Text2SQL 项目 sanic-web 的 Debug 实战

目录 项目背景介绍sanic-web Dify\_service handle\_think\_tag报错NoneType问题描述debug Dify调用不成功,一直转圈圈问题描述debug 前端markdown格式只显示前5页问题描述debug1. 修改代码2.重新构建1.1.3镜像3.更新sanic-web/docker/docker-compose.yaml4. 重新部…

学习51单片机02

吐血了,板子今天才到,下午才刚开始学的,生气了,害我笔记都断更了一天。。。。 紧接上文...... 如何将HEX程序烧写到程序? Tips:HEX 文件是一种常用于单片机等嵌入式系统的文件格式,它包含了程序的机器码…

麒麟服务器操作系统安装 MySQL 8 实战指南

往期好文连接:统信UOS/麒麟KYLINOS安装JDBC驱动包 Hello,大家好啊,今天给大家带来一篇麒麟服务器操作系统上安装 MySQL 8 的文章,欢迎大家分享点赞,点个在看和关注吧!MySQL 作为主流开源数据库之一&#x…

AWS EC2 微服务 金丝雀发布(Canary Release)方案

为什么需要实现金丝雀发布? 在当前项目的工程实践中, 已经有了充分的单元测试, 预发布环境测试, 但是还是会在线上环境出现非预期的情况, 导致线上事故, 因此, 为了提升服务质量, 需要线上能够有一个预验证的机制. 如何实现金丝雀发布? 使用AWS code deploy方案 AWS code…

支持蓝牙5.0和2.4G私有协议芯片-PHY6222

PHY6222QC-W04C 是一款适用于蓝牙低功耗(BLE)5.2 应用的片上系统(SoC)。它搭载 ARM Cortex™-M0 32 位处理器,配备 64KB SRAM、512K Flash、96KB ROM、256 bit efuse ,以及超低功耗、高性能的多模式射频模块…

图像锐化调整

一、背景介绍 之前找多尺度做对比度增强时候,发现了一些锐化相关算法,正好本来也要整理锐化,这里就直接顺手对之前做过的锐化大概整理了下,方便后续用的时候直接抓了。 这里整理的锐化主要是两块:一个是参考论文&#…

找客户的app

找客户的 app 在竞争激烈的商业环境中,找客户的 APP 成为企业拓展业务的利器。 微拓客 APP,集智能获客、营销素材、客户管理于一体。支持关键词、附近客源等多方式采集,覆盖 300 行业;一键采集客源,一键导出到通讯录…

​​金融合规革命:​​R²AIN SUITE 如何重塑银行业务智能​

一、市场发展背景与核心驱动因素​ 信息过载​:单家银行年均新增监管文件大量增加,人工解读效率极低。 客户体验升级​:高净值客户期待“724小时专业级响应”,但客户经理难以实时掌握数百款产品动态。 风险防控​:传…

论文阅读:Self-Collaboration Code Generation via ChatGPT

地址:Self-Collaboration Code Generation via ChatGPT 摘要 尽管大型语言模型(LLMs)在代码生成能力方面表现出色,但在处理复杂任务时仍存在挑战。在现实软件开发中,人类通常通过团队协作来应对复杂任务,…

2025年PMP 学习十五 第10章 项目资源管理

2025年PMP 学习十五 第10章 项目资源管理 序号过程过程组1规划沟通管理规划2管理沟通执行3监控沟通监控 项目沟通管理包括为确保项目的信 息及时且恰当地规划、收集、生成、发布、存储、检索、管理、控制、监 警和最终处理所需的过程; 项目经理绝大多数时间都用于与…

如何使用易路iBuilder智能体平台快速安全深入实现AI HR【实用帖】

随着企业组织经营对降本、增效、提质的需求日益迫切,越来越多企业启动人力资源数智化转型战略。而在AI战略实际推进过程中,企业组织往往在选型、搭建、使用、管控等问题上面临困惑: 如何快速、低成本接入AI能力,实现人力资源管理…

免费实用的远程办公方案​

假如你需要快速检索出远程电脑文件并下载? 假如你需要访问远程电脑的共享文件夹? 假如你需要访问远程电脑的USB设备,例如软件加密狗、调试器、固件烧录器、U盘等? 本篇文章能够解决以上痛点。 这个方案非常实用,也很…

【springboot项目服务假死、内存溢出问题排查】

问题现象:springboot服务A刚启动时正常,但运行几个小时后就会接口请求无响应,但服务器网络、磁盘I/O和CPU都没有出现爆满的情况,且A服务日志没有异常报错。 线上SpringBoot假死现象 SpringBoot应用会出现无法访问的情况。具体的表…

Java 线程状态详解:从创建到销毁的完整旅途

前言 在 Java 多线程编程中,线程的状态管理是理解并发逻辑的核心。本文将用通俗的语言和代码示例,解析线程的6种状态及其转换条件,助你彻底掌握线程的生命周期。 一、线程的6种状态 状态含义NEW线程对象已创建,但未启动&#xf…

操作系统|| 虚拟内存页置换算法

题目 写一个程序来实现 FIFO 和 LRU 页置换算法。首先,产生一个随机的页面引用序列,页面数从 0~9。将这个序列应用到每个算法并记录发生的页错误的次数。实现这个算法时要将页帧的数量设为可变。假设使用请求调页。可以参考所示的抽象类。 抽象类&…