本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面 & 笔者的个人理解
车道检测是自动驾驶系统中一项重要但具有挑战性的任务。基于Visual Transformer的发展,早期基于Transformer的车道检测研究在某些场景下取得了有前景的结果。然而,对于复杂的道路条件,如不均匀的光照强度和繁忙的交通,这些方法的性能仍然有限,甚至可能比同期基于CNN的方法更差。在本文中,我们提出了一种新的基于Transformer的端到端网络,称为SinLane,该网络获得了关注稀疏但有意义的位置的注意力权重,并提高了复杂环境中车道检测的准确性。SinLane由一种新颖的孪生视觉变换器结构和一种称为金字塔特征集成(PFI)的新型特征金字塔网络(FPN)结构组成。我们利用所提出的PFI来更好地整合全局语义和更精细的尺度特征,并促进Transformer的优化。此外,所设计的Siamese视觉变换器与多级PFI相结合,用于细化PFI输出的多尺度车道线特征。在三个车道检测基准数据集上进行的广泛实验表明,我们的SinLane以高精度和高效率实现了最先进的结果。具体来说,与目前性能最佳的基于Transformer的CULane车道检测方法相比,我们的SinLane将精度提高了3%以上。
总结来说,本文的主要贡献如下:
- 提出了一种新的FPN模块,金字塔特征集成(PFI),以完全集成全局语义和更精细的尺度特征。
- 设计了一个Siamese视觉变换器来从PFI中提炼多尺度车道线特征。
- 在三个基准数据集上取得了最先进的结果,与CULane上最著名的Transformer方法相比,准确率提高了3%以上。
相关工作回顾
早期的车道检测工作依赖于手工制作的特征,导致特征捕获有限,因此对于复杂条件下的车道检测任务无效。
为了应对复杂的环境,深度学习(DL)方法被引入到车道检测任务中。基于分割的方法首先应用于车道检测,其检测输出基于每像素的分割图。与传统方法相比,基于CNN的方法可以捕获更丰富的视觉特征和空间结构信息,因此基于DL的方法优于传统的检测方法。然而,基于每像素的分割方法计算成本高,实时性有限,并且难以学习车道线的细长特征。
为了解决这些问题,LaneNet引入了一种分支的多任务架构,将车道检测任务转化为实例分割问题。与之前的方法相比,这种方法对道路状况的变化更具鲁棒性,但更耗时。RESA被提出通过移动切片特征图来聚合空间信息,这可以获得良好的实时结果,但在复杂的道路条件下仍然失败。此外,上述大多数方法的输出车道线可能不连续。
为了以更高的效率获得更连续的车道线,在最近的研究中,基于曲线的方法将车道检测任务视为多项式回归问题,并利用参数曲线来拟合车道线。这些方法在很大程度上取决于曲线的参数(表示车道线像素的坐标,a、b、c和d是曲线的参数)。PloyLaneNet首次提出了一种直接输出参数的端到端深度多项式回归方法。为了提高稳定性和效率,BézierLaneNet提出了一种参数化的Bézier曲线来模拟车道线的几何形状。然而,即使效率很高,受全局信息学习能力的限制,这些基于曲线的方法在大型数据集上的准确性也不能令人满意,特别是在复杂的道路条件下。
Transformer引入计算机视觉领域后,在模型推理速度和全局信息获取方面取得了令人瞩目的成果。DETR在目标检测方面取得了令人满意的结果,优于一些基于CNN的方法。但是,在车道检测领域,基于Transformer的方法仍然难以产生令人满意的结果。基于DETR的方法LSTR推理速度快,但精度相对较低,特别是在一些复杂的道路环境中。与预训练和局部先验的LSTR相比,PriorLane提高了预测的准确性。然而,目前基于Transformer的方法和基于CNN的方法在准确性上仍存在差距。
在检测任务中,底层富含几何信息,但缺乏抽象的语义信息,而深层则相反。对于车道检测任务,车道线独特的细长形状和复杂的驾驶场景对本地和全局信息的集成提出了很高的要求。FPN提出了一种自上而下的特征金字塔架构,用于合并低级和高级特征。PANet中提出了一种自下而上的架构,用于更好地从低级到高级特征的聚合。Kong重新制定了FPN结构,并应用全局注意力和局部重构将低级表示与高级语义特征融合在一起。Nas-FPN和BiFPN提出了可学习的融合策略,从多尺度上提高了特征融合的效果。然而,所有这些方法都忽略了数据集的尺度分布,无法在复杂的自动驾驶场景中融合全局和局部信息。
方法详解
结构设计
SinLane网络的总体架构如图2所示。由于车道线具有明显的结构特征,因此可以用沿y轴等距采样的一系列关键点来表示,这些关键点可以表示为:
虽然车道检测任务可以被视为分割任务,但通过车道线的关键点表示,它可以被转换为与对象检测任务相似的序列预测任务。受DETR[3]的启发,我们提出了一种基于端到端变压器的方法SinLane,用于生成车道预测,而无需复杂的后处理步骤,如非最大抑制(NMS)[31]。我们网络的主要结构可分为四个部分,骨干网(ResNet或DLA34)、颈部、头部和训练目标。
Pyramid Feature Integration
我们开发了PFI来整合全局语义信息和更精细的特征。图3显示了PFI的详细结构。
在使用融合因子来平衡相邻高层和低层的特征后,我们采用了一种集成结构来进一步融合它们。对于基于FPN的信息集成,有一些已知的方法,如PANet和NAS-FPN。当应用于车道检测任务时,由于图像中的车道线通常又长又细,因此这些方法很难平衡全局信息和更精细的尺度特征。
因此,我们开发了一种新的集成结构来集成全局语义信息和更精细的尺度特征。首先,我们将多尺度特征(已被融合因子平衡)重塑为相同的尺度。请注意,特征形状是一个可调整的参数,取决于精度和效率的平衡。接下来,我们对重塑后的特征进行平均,可以表示为:
与之前的PANet等工作相比,我们的PFI具有两个优势:
(1)轻量级,即插即用,可以通过并行计算轻松实现,并应用于其他任务和网络;
(2)它适用于严重依赖全局和局部信息融合的任务,如车道检测任务。
Siamese Visual Transformer
我们提出了Siamese Visual Transformer来从多尺度特征图中提取丰富的信息。图4显示了详细的Siamese Visual Transformer结构。主结构由四个具有共享参数的暹罗视觉转换器组成。
由于车道线细长且具有独特的结构特征,我们使用对象序列(图2中的e0、…、e3)来表示它们,这有助于降低计算成本,并且易于对Transformer进行优化。对象序列可以表示为:
通过使用GT监督对象序列的生成,我们可以强制输出序列逐一对应图像中的实际车道,从而实现车道线的检测。
我们将PFI的输入特征图划分为block,以减轻Transformer计算的负担。然后将三维补丁展平为二维序列,并添加位置嵌入。与传统的Transformer编码器不同,我们利用Siamese结构使Transformer能够通过共享参数学习更丰富的多尺度信息。具体来说,我们在输入特征图的序列和上层Transformer的输出序列(或预生成的序列e0)之间应用注意力,而不是原始的自注意力。这个过程可以表示为:
Training and Inference Details
实验结果
结论
在本文中,我们提出了一种新的基于变压器的端到端网络,称为SinLane,用于车道线检测。SinLane由一种新颖的暹罗视觉变换器结构和一种称为金字塔特征集成(PFI)的新型FPN结构组成。我们证明,我们提出的PFI可以有效地整合全局语义和更精细的尺度特征,促进Transformer的优化。此外,所设计的Siamese Visual Transformer优化了我们的PFI输出的多尺度车道线特征。我们在三个基准数据集CULane、Tusimple和LLAMAS上评估了我们提出的方法。实验结果表明,我们提出的SinLane取得了最先进的结果,提高了复杂环境中车道线检测的准确性。具体来说,与已知的基于Transformer的CULane数据集车道线检测方法相比,它将准确率提高了3%以上。