车道线再出发！SinLane：孪生Transformer如何破局（上交&浙大）-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面 & 笔者的个人理解

车道检测是自动驾驶系统中一项重要但具有挑战性的任务。基于Visual Transformer的发展，早期基于Transformer的车道检测研究在某些场景下取得了有前景的结果。然而，对于复杂的道路条件，如不均匀的光照强度和繁忙的交通，这些方法的性能仍然有限，甚至可能比同期基于CNN的方法更差。在本文中，我们提出了一种新的基于Transformer的端到端网络，称为SinLane，该网络获得了关注稀疏但有意义的位置的注意力权重，并提高了复杂环境中车道检测的准确性。SinLane由一种新颖的孪生视觉变换器结构和一种称为金字塔特征集成（PFI）的新型特征金字塔网络（FPN）结构组成。我们利用所提出的PFI来更好地整合全局语义和更精细的尺度特征，并促进Transformer的优化。此外，所设计的Siamese视觉变换器与多级PFI相结合，用于细化PFI输出的多尺度车道线特征。在三个车道检测基准数据集上进行的广泛实验表明，我们的SinLane以高精度和高效率实现了最先进的结果。具体来说，与目前性能最佳的基于Transformer的CULane车道检测方法相比，我们的SinLane将精度提高了3%以上。

总结来说，本文的主要贡献如下：

提出了一种新的FPN模块，金字塔特征集成（PFI），以完全集成全局语义和更精细的尺度特征。
设计了一个Siamese视觉变换器来从PFI中提炼多尺度车道线特征。
在三个基准数据集上取得了最先进的结果，与CULane上最著名的Transformer方法相比，准确率提高了3%以上。

方法详解

结构设计

SinLane网络的总体架构如图2所示。由于车道线具有明显的结构特征，因此可以用沿y轴等距采样的一系列关键点来表示，这些关键点可以表示为：

虽然车道检测任务可以被视为分割任务，但通过车道线的关键点表示，它可以被转换为与对象检测任务相似的序列预测任务。受DETR[3]的启发，我们提出了一种基于端到端变压器的方法SinLane，用于生成车道预测，而无需复杂的后处理步骤，如非最大抑制（NMS）[31]。我们网络的主要结构可分为四个部分，骨干网（ResNet或DLA34）、颈部、头部和训练目标。

Pyramid Feature Integration

我们开发了PFI来整合全局语义信息和更精细的特征。图3显示了PFI的详细结构。

在使用融合因子来平衡相邻高层和低层的特征后，我们采用了一种集成结构来进一步融合它们。对于基于FPN的信息集成，有一些已知的方法，如PANet和NAS-FPN。当应用于车道检测任务时，由于图像中的车道线通常又长又细，因此这些方法很难平衡全局信息和更精细的尺度特征。

因此，我们开发了一种新的集成结构来集成全局语义信息和更精细的尺度特征。首先，我们将多尺度特征（已被融合因子平衡）重塑为相同的尺度。请注意，特征形状是一个可调整的参数，取决于精度和效率的平衡。接下来，我们对重塑后的特征进行平均，可以表示为：

与之前的PANet等工作相比，我们的PFI具有两个优势：

（1）轻量级，即插即用，可以通过并行计算轻松实现，并应用于其他任务和网络；
（2）它适用于严重依赖全局和局部信息融合的任务，如车道检测任务。

Siamese Visual Transformer

我们提出了Siamese Visual Transformer来从多尺度特征图中提取丰富的信息。图4显示了详细的Siamese Visual Transformer结构。主结构由四个具有共享参数的暹罗视觉转换器组成。

由于车道线细长且具有独特的结构特征，我们使用对象序列（图2中的e0、…、e3）来表示它们，这有助于降低计算成本，并且易于对Transformer进行优化。对象序列可以表示为：

通过使用GT监督对象序列的生成，我们可以强制输出序列逐一对应图像中的实际车道，从而实现车道线的检测。

我们将PFI的输入特征图划分为block，以减轻Transformer计算的负担。然后将三维补丁展平为二维序列，并添加位置嵌入。与传统的Transformer编码器不同，我们利用Siamese结构使Transformer能够通过共享参数学习更丰富的多尺度信息。具体来说，我们在输入特征图的序列和上层Transformer的输出序列（或预生成的序列e0）之间应用注意力，而不是原始的自注意力。这个过程可以表示为：

Training and Inference Details

实验结果

结论

在本文中，我们提出了一种新的基于变压器的端到端网络，称为SinLane，用于车道线检测。SinLane由一种新颖的暹罗视觉变换器结构和一种称为金字塔特征集成（PFI）的新型FPN结构组成。我们证明，我们提出的PFI可以有效地整合全局语义和更精细的尺度特征，促进Transformer的优化。此外，所设计的Siamese Visual Transformer优化了我们的PFI输出的多尺度车道线特征。我们在三个基准数据集CULane、Tusimple和LLAMAS上评估了我们提出的方法。实验结果表明，我们提出的SinLane取得了最先进的结果，提高了复杂环境中车道线检测的准确性。具体来说，与已知的基于Transformer的CULane数据集车道线检测方法相比，它将准确率提高了3%以上。

车道线再出发！SinLane：孪生Transformer如何破局（上交&浙大）