车道线检测----CLRKDNet

今天的最后一篇车道线检测系列结束

CLRKDNet：通过知识蒸馏加速车道检测

摘要：道路车道是智能车辆视觉感知系统的重要组成部分，在安全导航中发挥着关键作用。在车道检测任务中，平衡精度与实时性能至关重要，但现有方法往往顾此失彼。为此，我们提出了一种简化的模型 CLRKDNet，可在检测精度与实时性能之间取得平衡。最先进的模型 CLRNet 在多个数据集上均展现出卓越的性能，但由于其采用了特征金字塔网络（FPN）和多层检测头架构，计算开销较大。我们的方法简化了 FPN 结构与检测头，并重新设计了这两种架构，同时引入了一种新颖的师生蒸馏过程以及一系列新的蒸馏损失函数。这一组合方法可将推理时间最多缩短 60%，同时保持与 CLRNet 相当的检测精度。这种在精度与速度之间的战略性平衡，使 CLRKDNet 成为自动驾驶应用中实时车道检测任务的可行解决方案。代码和模型可在以下网址获取：

https://github.com/weiqingq/CLRKDNet。

一、引言

车道检测是智能交通（包括自动驾驶和高级驾驶辅助系统（ADAS））的关键组成部分。车道是道路交通的基本要素，划分了车辆行驶路径，有助于实现更安全、更顺畅的驾驶条件。检测方法主要分为基于模型和基于特征两类。基于模型的方法利用预定义的车道模型，将车道识别视为参数估计问题，这有助于降低对噪声的敏感性，并减少对大面积局部图像区域的依赖。相比之下，基于特征的方法将图像中的单个点分类为车道点或非车道点，依赖于边缘梯度、宽度、强度和颜色等特定特征。然而，这种方法需要清晰的车道边缘和强烈的颜色对比才能准确检测。这两种方法都遵循类似的步骤序列：感兴趣区域（ROI）提取、图像预处理、特征提取和车道拟合。随着深度学习技术的出现，传统车道检测方法大多被更先进的端到端深度学习方法所取代。这些现代方法消除了手动特征工程的需求，增强了检测系统的鲁棒性和有效性。当代车道检测技术可分为四类：基于分割的方法、基于参数曲线的方法、基于关键点的方法和基于锚点的方法。基于分割的方法将车道检测视为语义分割任务；基于参数曲线的方法使用曲线参数建模车道，通过参数回归进行检测；基于关键点的方法将车道检测视为关键点估计问题，随后进行整合；最后，基于锚点的方法使用线形锚点，回归这些预定义锚点的采样点偏移量。尽管深度学习技术在车道检测方面取得了相当大的进展，但仍有进一步提升的空间。车道线通常在图像中延伸很长的像素段，并且在局部尺度上具有与路面明显不同的特征，这凸显了提取全局和局部特征以实现准确检测的必要性。在 Zheng 等人的论文中，介绍了交叉层 refinement 网络（CLRNet），利用高级语义特征和低级细节特征。它首先使用高级特征进行粗略定位，然后通过细节特征进行 refinement，以实现精确的车道定位。ROIGather 模块通过将 ROI 车道特征与整个特征图链接起来，进一步捕获广泛的全局上下文信息，与以往方法相比显著提升了检测性能。然而，CLRNet 的复杂性，包括其特征金字塔网络（FPN）和多个检测头，增加了推理时间，阻碍了自动驾驶车辆所需的实时性能。为此，我们开发了 CLRKDNet，旨在减少推理时间的同时保持精度。CLRKDNet 简化了 FPN 架构，采用简化的特征聚合网络，并减少了检测头的数量，从而消除了迭代 refinement 过程。该模型以 CLRNet 为教师模型，引入了一种新颖的知识蒸馏程序，以提升简化的学生模型的性能，并抵消失败检测精度的潜在下降。这种多层蒸馏包括中间特征层、先验嵌入和检测头 logits，确保 CLRKDNet 在显著更快的速度下实现与 CLRNet 相当的检测精度。更多详细信息，请参见第三部分的方法部分。我们通过对 CULane 和 TuSimple 数据集进行广泛实验来验证所提方法的改进，并报告了这两个数据集上的最新结果。此外，全面的消融研究证实了框架中每个组件的有效性。我们的主要贡献总结如下：

我们通过简化 CLRNet 中的特征增强模块并减少检测头的数量，显著提高了计算效率，使推理速度最多提高了 60%。
我们提出了一种新颖的知识蒸馏技术，其中简化的学生模型 CLRKDNet 利用教师模型 CLRNet 的中间特征层、先验嵌入和最终检测头 logits 来提升其车道检测能力。
我们在多个车道检测数据集上进行了广泛的实验，以验证所提方法 CLRKDNet 的有效性，并进行了全面的消融研究，以验证每个模块对模型性能的贡献。

二、相关工作

（一）车道检测

基于分割的方法 ：基于分割的方法将车道检测视为像素级分类任务，将车道线区域与背景分开。例如，SCNN 利用语义分割框架和消息传递机制来改善车道检测中的空间关系，但其实时应用受到速度限制。同样，RESA 通过实时特征聚合模块提升性能，但由于像素级处理，计算需求仍然较高。
基于锚点的方法 ：基于锚点的方法依赖预定义的线或行锚点来引导车道检测。Line-CNN 和 LaneATT 使用带注意力机制的线锚点来提高准确性和效率。相反，行锚点方法如 UFLD 和 CondLaneNet 具有简单和快速的优点，但在复杂场景中由于难以准确识别初始车道点而可能表现不佳。CLRNet 及其扩展工作提出了一种跨层优化的车道检测网络，使用高级特征检测车道线，并利用低级特征调整车道线位置。

（二）知识蒸馏

知识蒸馏涉及将复杂且通常笨重的模型的见解转移到更紧凑、计算效率更高的模型，从而提升小型模型的性能和泛化能力。该技术最初由 Hinton 等人在 2015 年提出。多年来，它发展出许多方法，包括采用软标签和定制损失函数来优化学习过程。在计算机视觉中，知识蒸馏显著提升了小型模型在目标检测、图像分类和分割等各种任务中的能力。在车道检测领域，Hou 等人引入了自注意力蒸馏（SAD），采用自上而下和层次化的注意力蒸馏来增强表示学习和模型效能。值得注意的是，我们的蒸馏方法优于 SAD，在 CULane 数据集上的 F1 分数比其高出近 10 个百分点。

三、方法

（一）CLRKDNet

教师模型 ：我们的方法采用复杂的 CLRNet 架构作为教师模型，它集成了 ResNet 或 DLA 等稳健的主干网络。这种集成使主干网络能够提取深度特征，然后由特征金字塔网络（FPN）处理，生成不同分辨率（包括输入图像尺寸的 1/8、1/16 和 1/32）的多尺度特征图，从而全面表示全局内容和局部细节。CLRNet 通过配置具有可学习参数（xi，yi，θi）的先验来启动车道检测，其中（xi，yi）定义起始坐标，θi 是相对于 x 轴的方向。符号 i 表示 M 个先验中的一个，M 表示先验的总数。这些先验对于识别潜在车道路径至关重要，通过在不同尺度的各种卷积层和全连接层中进行处理。如图 2 所示，这种多层处理生成分类和回归输出以调整先验。模型经过三次 refinement 循环，这些调整利用更高分辨率的特征图重新校准先验。交叉注意力机制在整个过程中整合上下文信息，最终精确计算多个水平行的 x 坐标以描绘车道路径。为应对车道检测的复杂性，CLRNet 采用全面的损失函数 L，结合 smooth L1 进行先验 refinement，focal loss 进行分类，以及交叉熵损失进行分割。此外，专门设计的 LineIoU 损失函数专门增强车道预测的交并比（IoU）度量，提升模型精度。
学生模型 ：CLRKDNet 是 CLRNet 的简化版本，旨在满足自动驾驶应用对实时性的高要求，同时管理车道检测性能。它利用 CLRNet 的先进网络设计，包括其主干网络和检测头机制，但在架构上进行了显著优化以提高效率。在特征增强部分，CLRNet 通过 FPN 整合多尺度语义丰富的特征，而我们的 CLRKDNet 部署了一个轻量级特征聚合网络以减轻计算负担。如图 2 所示，该网络专门设计用于压缩从主干网络提取的特征的通道大小，增强特征的表示质量而不增加计算负担。这一创新不仅大幅减少了权重参数数量，还缩小了计算占用空间，使特征集成过程更快速。CLRKDNet 的检测头也经过了效率优化。与 CLRNet 的多个检测头和可学习先验（需要大量计算资源进行迭代 refinement）不同，我们的 CLRKDNet 采用单个检测头与固定先验集。该单检测头利用一组静态先验，不进行昂贵的迭代 refinement 过程。图 3 展示了单检测头的结构。实验分析表明，这种简化使 CLRKDNet 的推理速度最多提高了 60%，而评估分数仅略有下降。通过知识蒸馏进一步补偿了由于简化架构导致的检测性能下降。我们提出的知识转移方法利用从教师模型 CLRNet 的中间层蒸馏出的见解，以及先验和检测头的最终输出。通过这种多阶段蒸馏过程，我们的 CLRKDNet 模型以较低的计算成本接近 CLRNet 设定的基准。

二）注意力图蒸馏

激活注意力转移 ：在车道检测模型中，知识蒸馏通过基于激活的注意力机制实现。对于卷积神经网络的第 n 层，我们提取激活输出，表示为 An ∈ RCn×Hn×Wn，其中 Cn、Hn 和 Wn 分别对应激活张量的通道数、高度和宽度。为了将教师模型的知识蒸馏到学生模型，我们从这些激活张量中生成空间注意力图。这些图作为浓缩表示，突出显示模型认为输入图像中最关键的区域。通过应用映射函数 Gsump（An）= ΣCn j=1 |An，j|p，其中 An，j 表示 An 在通道维度上的第 j 个切片，p > 1，来蒸馏这些注意力图。参考其他文献，我们选择 p = 2 以加强关注最显著的特征，从而引导学生模型的注意力方向，类似于教师模型的方向。图 2 展示了这一注意力图蒸馏过程。在整个训练阶段，学生模型的注意力图逐渐调整以匹配教师模型的注意力图，并通过损失函数最小化差异。
注意力转移损失 ：在车道检测模型中，注意力图的蒸馏通过注意力转移损失函数量化，该函数专门测量学生模型和教师模型注意力图之间的差异。对于集合 N（表示每个教师 - 学生激活层对的索引）中索引为 n 的每一层，首先将学生模型的注意力图 ASn 和教师模型的注意力图 ATn 转换为向量形式，分别表示为 QS n 和 QT n。这些向量形式是通过将激活张量应用映射函数 G 并将得到的注意力图重塑为向量产生的。 Latt = Σn∈N ||QS n / ||QS n||2 − QT n / ||QTn||2||p 其中 QS n = vec（G（ASn））和 QT n = vec（G（ATn））分别是学生模型和教师模型第 n 对注意力图的向量化形式。||・||2 表示 ℓ2 范数，用于标准化每个向量化的注意力图，确保损失计算不受注意力图尺度的影响，仅关注其模式。参数 p 设置为 2，与注意力图计算中使用的二次映射函数 G 一致，这已被证明可以有效促进知识转移。

（三）检测头上的知识转移

在注意力图蒸馏过程之后，我们旨在进一步提高检测精度并缩小模型之间的差距。为此，我们提出了一种用于检测头的双重蒸馏程序，包括先验嵌入蒸馏和 logits 蒸馏。这些机制确保 CLRKDNet 尽管架构简化，仍能有效保留教师模型 CLRNet 的复杂检测能力。先验嵌入蒸馏使学生模型的先验与教师模型的精炼输出对齐，而 logits 蒸馏则测量并最小化输出 logits 的差异，引导 CLRKDNet 的预测尽可能接近 CLRNet 的预测。先验嵌入蒸馏：CLRNet 和 CLRKDNet 都使用嵌入先验初始化其检测头，这些先验定义了车道线的几何参数，包括初始坐标（xi，yi）和相对于 x 轴的方向 θi。这些先验和由主干网络和特征融合网络生成的特征图引导 ROI 模块为每个车道像素准确收集附近的特征。这一收集过程结合全局内容和丰富的语义信息，确保全面的检测能力。虽然 CLRNet 在其检测头的各个层中迭代地精炼这些先验，但 CLRKDNet 直接使用一组这些先验进行检测输出。通过比较学生模型的初始先验和教师模型的精炼先验之间的嵌入来完成这些先验的蒸馏。具体而言，嵌入被格式化为 [M，3] 维度的张量，其中 M 表示初始先验的数量，使用 L2 范数损失函数进行比较： Lprior = ΣM i=1 ||Pi S − Pi T ||2 其中，Pi S 和 Pi T 分别表示学生模型和教师模型的第 i 个先验向量，每个向量都包含初始坐标和方向（xi，yi，θi）。这种 L2 范数比较测量每对对应先验之间的欧几里得距离，有效使 CLRKDNet 的静态先验与 CLRNet 的动态精炼先验对齐。这种对齐确保学生模型从与教师模型迭代过程输出相当的精炼水平开始，有效弥合了两种模型在动态精炼能力上的差距。Logit 蒸馏：Logit 蒸馏关注检测头的最终输出，在将模型输出转换为预测线之前。如图 3 所示，这些 logits 包括分类分数和几何特征，例如起始坐标（xi，yi）、方向 θi、车道长度 li 以及预测车道与车道先验之间的水平偏移差 ∆xi。Logit 蒸馏过程包括将学生模型检测头的逻辑输出与教师模型的逻辑输出进行比较，并计算均方误差（MSE）以测量和最小化它们之间的差异。这种损失确保 CLRKDNet 的简化检测头（缺乏 CLRNet 的多个精炼阶段）仍能产生高精度的输出。MSE 对大差异敏感，特别有效微调学生模型的输出以尽可能接近教师模型的输出，从而补偿了迭代精炼层的缺失。这种特定损失表示为： Llogit = 1/M ΣM i=1 [(xi S − xi T )² + (yi S − yi T )² + (θi S − θi T )² + (li S − li T )² + (∆xi S − ∆xi T )²] 其中 M 是先验的数量。xi S，yi S，θi S，li S，∆xi S 是学生模型检测头的几何输出，包括起始坐标、方向、长度和水平差异。xi T，yi T，θi T，li T，∆xi T 是教师模型的相应输出。