你的在线高精地图真的可靠么？MapBench：全面分析所有SOTA算法-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&个人理解

驾驶系统通常依赖高精（HD）地图来获取精确的环境信息，这对于规划和导航至关重要。尽管当前的高精地图构建器在理想条件下表现良好，但它们对现实世界挑战的韧性，例如恶劣天气和传感器故障，尚不完全清楚，这引发了安全问题。MapBench是首个旨在评估高精地图构建方法对各种传感器损坏情况的鲁棒性的全面基准测试。基准测试涵盖了来自Camera和激光雷达传感器的总共29种损坏类型。对31个高精地图构建器的广泛评估揭示了现有方法在恶劣天气条件和传感器故障下性能显著下降，这凸显了关键的安全问题。对此，识别出增强鲁棒性的有效策略，包括利用多模态融合、高级数据增强和架构技术的创新方法。这些见解为开发更可靠的高精地图构建方法提供了途径，这对于自动驾驶技术的进步至关重要。

项目链接：https://mapbench.github.io/

领域背景介绍

高精地图是自动驾驶系统的基础组件，提供了交通规则、矢量拓扑和导航信息的厘米级细节。这些地图使自动驾驶车辆能够准确地定位自身在道路上的位置，并预测即将到来的特征。高精地图构建器将这项任务表述为预测以鸟瞰图（BEV）形式的一系列矢量静态地图元素，例如人行横道、车道分隔线、道路边界等。

现有的高精地图构建方法可以根据输入传感器的类型进行分类：仅基于camera、仅基于激光雷达以及camera-激光雷达融合模型。每种传感器都有其独特的功能：camera从图像中捕获丰富的语义信息，而激光雷达则从点云中提供明确的几何信息。

通常，基于camera的方法比仅基于激光雷达的方法表现更好，而基于融合的方法则产生了最满意的结果。然而，目前的模型设计和性能评估都是基于理想的驾驶条件，例如晴朗的白天天气和完全正常的传感器。

为了弥补这一差距，这里提出了MapBench，这是首个旨在评估高精地图构建方法在实际环境中对自然损坏可靠性的全面基准测试。通过研究三种流行的配置：纯视觉、仅基于激光雷达以及视觉-激光雷达融合模型，全面评估了模型在损坏情况下的鲁棒性。评估涵盖了8种camera损坏类型、8种激光雷达损坏类型以及13种视觉-激光雷达损坏组合类型，如图2和图4所示。为每种损坏类型定义了三个严重程度级别，并设计了适当的指标以进行定量鲁棒性比较。利用MapBench，对总共31种最先进的高精地图构建方法进行了广泛的实验。

如图1所示的结果揭示了“干净”数据集和损坏数据集之间模型性能的显著差异。这些评估的关键发现包括：

在所有camera/激光雷达损坏情况中，雪天损坏显著降低了模型性能。它覆盖了道路，使得地图元素无法识别，对自动驾驶构成了重大威胁。此外，传感器故障损坏（例如帧丢失和回声不完整）对所有模型来说也是一个挑战，这显示了传感器故障对高精地图模型的严重威胁。
尽管camera-激光雷达融合方法通过结合两种模态的信息显示出了有前景的性能，但现有方法通常假设可以访问完整的传感器信息，这导致在传感器损坏或缺失时鲁棒性较差，并可能崩溃。

通过广泛的基准研究，进一步揭示了提高高精地图构建器对传感器损坏可靠性的关键因素。这项工作的主要贡献有三个方面：

引入了MapBench，首次尝试全面基准测试和评估高精地图构建模型对各种传感器损坏的鲁棒性。
在三种配置下（仅基于camera、仅基于激光雷达以及camera-激光雷达融合）广泛基准测试了总共31种最先进的高精地图构建器及其变体。这包括研究它们在8种camera损坏、8种激光雷达损坏以及每种配置下13种camera-激光雷达损坏组合下的鲁棒性。
确定了提高鲁棒性的有效策略，包括利用先进的数据增强和架构技术的创新方法。发现揭示了显著提高性能和鲁棒性的策略，强调了针对高精地图构建中特定挑战定制解决方案的重要性。

MapBench：高精地图构建鲁棒性基准测试

在这项工作中，研究了三种流行的配置，即仅基于camera的、仅基于激光雷达的以及基于camera-激光雷达融合的高精地图构建任务，并研究了它们对各种传感器损坏的鲁棒性。如图2所示，camera/激光雷达损坏被分为外部环境、内部传感器和传感器故障类型，涵盖了大多数真是情况。我们为每个损坏类型考虑了三个损坏严重程度级别，即容易、中等和困难。此外，对于多传感器损坏，我们使用camera/激光雷达传感器故障类型来分别或同时干扰camera和激光雷达传感器输入。MapBench是通过破坏nuScenes的验证集来构建的。选择nuScenes是因为它几乎在所有最近的高精地图构建工作中都得到了广泛应用。

1）传感器损坏

camera传感器损坏。为了探究仅基于camera的模型鲁棒性，采用了8种真实世界中的camera传感器损坏情况，这些损坏情况从三个角度进行分类：外部环境、内部传感器和传感器故障。外部环境包括各种光照和天气条件，如强光、低光、雾和雪。camera输入也可能因传感器内部因素而损坏，如运动模糊和颜色量化。最后，考虑了传感器故障的情况，即由于物理问题导致camera崩溃或某些帧丢失，分别导致camera崩溃和帧丢失。

激光雷达传感器损坏。为了探索仅基于激光雷达的模型鲁棒性，采用了中的8种激光雷达传感器损坏情况，这些损坏情况在现实世界的部署中具有很高的发生概率。这些损坏情况也分为外部、内部和传感器故障三种情况。外部环境包括雾、湿地和雪，这些条件会导致激光雷达脉冲的背散射、衰减和反射。此外，激光雷达输入可能会因不平坦的表面、灰尘或昆虫而损坏，这通常会导致干扰并导致运动模糊和光束缺失。最后，我们考虑了激光雷达内部传感器故障的情况，如串扰、可能的回声不完整和跨传感器场景。

多传感器损坏。为了探索camera-激光雷达融合模型的鲁棒性，设计了13种camera-激光雷达损坏组合，使用上述传感器故障类型分别或同时干扰camera和激光雷达输入。这些多传感器损坏被分为仅camera损坏、仅激光雷达损坏以及它们的组合，涵盖了大多数现实场景。具体来说，利用“干净”的激光雷达点数据和三种camera故障情况（如不可用camera（所有RGB图像的所有像素值都设置为零）、camera崩溃和帧丢失）设计了3种仅camera损坏情况。此外，利用“干净”的camera数据和损坏的激光雷达数据作为输入设计了4种仅激光雷达损坏情况。这包括完全激光雷达故障（由于没有任何模型可以在所有点都缺失的情况下工作，通过仅保留一个点作为输入来近似这种情况）、不完整回波、串扰和跨传感器。请注意，对完全激光雷达故障的实现接近现实情况。最后，设计了6种camera-激光雷达损坏组合，使用之前提到的图像/激光雷达传感器故障类型同时干扰两个传感器输入。

2）Evaluation Metrics

基于mAP（平均精度均值）定义了两个鲁棒性评估指标，mAP是矢量化高精地图构建中常用的准确度指标。

损坏误差（CE）。将CE定义为主要指标，用于比较模型的鲁棒性。它衡量了候选模型相对于基准模型的相对鲁棒性。给定总共N种不同的损坏类型，CE和mCE（平均损坏误差）的分数计算如下：

恢复率（RR）。将RR定义为相对鲁棒性指标，用于衡量模型在损坏集上评估时能够保留多少准确性，其计算方式如下：

实验分析

候选模型。MapBench总共包含了31个高精地图构建器及其变体，即HDMapNet 、VectorMapNet 、PivotNet 、BeMapNet 、MapTR 、MapTRv2 、StreamMapNet 和HIMap 。其他一些高精地图方法的代码不是开源的，因此在本工作中不会考虑。

模型配置。在表1中报告了不同模型的基本信息，包括输入模态、BEV编码器、主干网络、训练周期以及它们在官方nuScenes验证集上的性能。请注意，这里的仅激光雷达模型将时间聚合的激光雷达点作为输入，因此它们在“干净”数据上的mAP远高于其他表格或图表中的值，后者使用单次扫描的激光雷达点，以便与损坏数据进行公平比较。

评估协议。为确保公平性，尽可能使用开源代码库提供的官方模型配置和public checkpoints，或者按照默认设置重新训练模型。此外，通过平均三个严重程度级别来报告每种损坏类型的指标。采用不同配置的MapTR （见表1）作为计算等式1中mCE指标的基线，因为它在最新方法中被广泛采用。

1）纯视觉基准测试结果

在图3（a）-（b）中展示了8个仅使用camera的高精地图模型在camera传感器损坏情况下的鲁棒性。发现表明，现有的高精地图模型在损坏场景下表现出不同程度的性能下降。总体来说，损坏鲁棒性与在“干净”数据上的原始准确度高度相关，因为准确度更高的模型（例如StreamMapNet 、HIMap ）也表现出更好的损坏鲁棒性。我们进一步在图6中展示了仅使用camera的方法在不同损坏严重程度下的准确度比较。

基于实证评估结果，得出以下几个重要发现，可以总结如下：

1）在所有camera损坏情况中，雪对性能的影响最大，对驾驶安全构成严重威胁。主要原因是雪会覆盖道路，导致地图元素无法识别。此外，帧丢失和camera崩溃对所有模型来说也是一个挑战，这显示了camera传感器故障对仅使用camera的模型构成的严重威胁。

2）如图3（a）-（b）所示，最鲁棒的两个模型是StreamMapNet 和HIMap 。尽管它们在各种camera损坏情况下比其他研究的模型表现出更好的鲁棒性，但现有模型的整体鲁棒性仍然相对较低。具体来说，mRR的范围在40%到60%之间，而最佳模型HIMap 的mRR仅为56.6%。

2）纯激光雷达基准测试结果

在图3（c）-（d）和图6中报告了4个仅使用激光雷达的高精地图构建器的激光雷达传感器损坏鲁棒性。与仅使用camera的模型观察结果类似，在“干净”数据集上准确度更高的仅使用激光雷达的模型通常也表现出更好的损坏鲁棒性。关键要点如下：

1）在所有损坏情况中，雪和跨传感器损坏对性能的影响最大，对仅使用激光雷达的方法的鲁棒性构成严重威胁。更具体地说，雪和跨传感器损坏都导致所有仅使用激光雷达的方法性能下降超过80%。主要原因是雪会导致激光雷达数据中的激光脉冲反射。此外，跨传感器损坏表明，由不同激光雷达配置/设备引起的域差异大大降低了性能。

2）大多数模型在不完整回波损坏下的性能下降可以忽略不计。这种损坏类型主要影响来自深色车辆或物体的数据，而高精地图构建任务更关注静态地图元素。此外，尽管VectorMapNet 在mRR指标上取得了最佳性能，但与HIMap 相比，在mAP方面并不逊色。

3）Camera-激光雷达融合基准测试结果

为了系统地评估基于camera-激光雷达融合方法的可靠性，设计了13种多传感器损坏类型，这些损坏类型分别或同时干扰camera和激光雷达输入。结果如图4所示。发现表明，camera-激光雷达融合模型在不同损坏组合下表现出不同程度的性能下降。

实验结果揭示了几个有趣的发现，我们提供如下详细分析：

1）在camera数据缺失的场景中，MapTR 和 HIMap 的mAP分别下降了40.0%和68.9%，对安全感知构成了严重威胁。此外，帧丢失对基于传感器融合方法的性能造成的影响比camera崩溃更为严重。这些观察结果验证了camera传感器故障对高精地图融合模型构成了重大威胁。

2）在激光雷达数据缺失的场景中，MapTR 和 HIMap 的mAP分别下降了42.1%和41.5%，这显示了激光雷达传感器的重要性。此外，激光雷达的串扰（Crosstalk）和跨传感器损坏（Cross-Sensor corruptions）对camera-激光雷达融合的性能影响最大。相比之下，激光雷达的不完整回波损坏（Incomplete Echo corruption）对模型性能的影响不大，这与仅使用激光雷达配置下的观察结果一致。

3）camera-激光雷达组合损坏导致的性能下降比其单模态对应项更糟，这凸显了camera和激光雷达传感器故障对高精地图构建任务的严重威胁。此外，无论与哪种类型的激光雷达损坏相结合，帧丢失（Frame Lost）对融合模型性能的影响都比camera崩溃（Camera Crash）更为显著，这强调了camera传感器多视角输入的重要性。在三种激光雷达损坏类型中，跨传感器损坏对融合模型性能的影响最大。即使与各种类型的camera损坏相结合，这种模式仍然保持一致，说明了跨配置或跨设备激光雷达数据输入构成的严重威胁。在图5中提供了一些在各种camera-激光雷达损坏组合下高精地图构建的定性示例，这些示例展示了在各种损坏下的性能下降。

值得注意的是，尽管HIMap 在“干净”条件下的性能优于MapTR ，但在损坏情况下，其鲁棒性相对较差。这些观察结果促使我们进一步专注于增强camera-激光雷达融合方法的鲁棒性，尤其是在一种传感器模态缺失或camera和激光雷达都受损的情况下。

观察与讨论

主干网络。首先全面研究了骨干网络的影响，结果如表4所示。分别在PivotNet 和BeMapNet 中使用了三种不同的骨干网络。结果显示，Swin Transformer 显著保留了模型的鲁棒性。例如，与ResNet-50 相比，Swin Transformer 骨干网络分别将PivotNet 和BeMapNet 的mCE提高了22.2%和24.1%的绝对增益。这些结果表明，较大的预训练模型往往有助于增强在域外数据下特征提取的鲁棒性。

不同的BEV编码器。研究了几种流行的2D到BEV转换方法，并在表2中展示了结果。具体来说，为仅基于camera的MapTR 模型采用了BEVFormer 、BEVPool 和GKT 。结果显示，MapTR 与各种2D到BEV方法兼容，并实现了稳定的鲁棒性性能。此外，BEVPool 的mRR结果不如BEVFormer 和GKT ，验证了基于Transformer的BEV编码器在提高高精地图模型鲁棒性方面的有效性。GKT 实现了最佳的mCE，这可能是由于它同时集成了几何和视角Transformer方法。

时间信息。研究了利用时间线索对高精地图模型鲁棒性的影响，并在表3中展示了结果。我们检查了StreamMapNet 的两个变体：一个包含时间融合模块，另一个不包含。结果显示，时间融合模块可以显著增强鲁棒性。这里的mAP结果与表1不同，因为StreamMapNet 是根据新的训练/验证集划分默认设置重新训练的，而表1中的结果则是使用旧的训练/验证集划分获得的。可以观察到，带有时间线索的模型在mRR和mCE指标上分别获得了8.4%和14.1%的绝对增益。这验证了时间融合可以在传感器损坏的情况下提供额外的互补信息，从而增强对不同传感器损坏的鲁棒性。

训练周期。在这个设置中，我们研究了三个使用不同训练周期训练的高精地图模型，结果如表5所示。可以观察到，更多的训练周期可以显著提高“干净”集上的性能和对损坏的鲁棒性。例如，使用更长的训练计划可以增强mCE指标的鲁棒性：MapTR （+19.1%）、PivotNet （+9.8%）和BeMapNet （+10.8%）。值得注意的是，随着训练周期的延长，这些模型在“干净”集上的性能也有所提高，这表明延长训练允许模型更好地学习数据集中的内在模式，从而在损坏的数据上实现更好的泛化性能。

数据增强以提升损坏鲁棒性。文章研究了各种数据增强技术对高精地图模型鲁棒性的影响。由于多模态数据增强仍然是一个开放的问题，这项工作专注于研究图像和LiDAR数据增强技术的影响。这里研究了三种不同的图像数据增强方法，即Rotate 、Flip 和PhotoMetric ，以及三种不同的基于LiDAR的数据增强方法，即Dropout 、RTS-LiDAR（针对LiDAR的旋转-平移-缩放）和PolarMix 。

对于基于相机的数据增强，选择MapTR-R50 作为基线，并在表6中展示了结果。可以观察到，图像增强方法在“干净”集上适度提高了模型性能。然而，它们并没有一致地增强模型的鲁棒性。例如，PhotoMetric 将鲁棒性指标mRR和mCE分别提高了8.2%和15.5%，而Rotate 和Flip 则削弱了鲁棒性。这种差异可能源于PhotoMetric 对于某些类型的损坏（如亮度和低光）起到了类似于损坏增强的作用，与其他增强方法不同。
对于基于LiDAR的数据增强，选择MapTR-LiDAR 模型，因为它在所有仅使用LiDAR的模型中具有优越的鲁棒性。不同LiDAR增强的结果如表7所示。我们观察到，所有LiDAR增强技术都显著提高了模型在“干净”集上的性能。特别是，PolarMix 实现了3.0%的绝对性能提升。此外，所有LiDAR增强技术都有效地增强了模型的鲁棒性，使Dropout 的绝对mCE值降低了1.1%，RTS-LiDAR 降低了6.0%，PolarMix 降低了6.5%。这些结果证明了LiDAR增强方法在提高仅使用LiDAR的高精地图构建方法的损坏鲁棒性方面的有效性。