分割仍旧发光！Mask2Map：爆拉MapTRv2 近10个点~-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面 & 笔者理解

高精地图（HD Map）一直以来被认为是是保证自动驾驶车辆安全有效导航的关键要素。它们通过提供地图实例的详细位置和语义信息，促进精确的规划和障碍物避让。传统上，利用基于SLAM的方法离线构建的高精地图，涉及复杂的过程，需要大量的劳动力和经济成本。而且，这种方法在响应道路条件变化并提供及时更新方面存在局限性。所以，最近越来越多的论文开始研究如何基于学习来在线构造高精地图构建，专注于生成自车周围的局部地图。

论文地址：https://arxiv.org/pdf/2407.13517

早期的工作将地图构建视为一种语义分割任务，基于从各种传感器获得的BEV特征。它们预测了栅格格式中每个像素的类别标签，避免了生成精确矢量轮廓的复杂性。虽然这种方法提供了语义地图信息，但在捕捉不同类别的地图组件的精确关键位置及其结构关系方面存在不足。因此，其输出并不适合直接应用于下游任务，如运动预测和规划。为了解决这个问题，越来越多的研究者将 HD map 矢量化，能够直接生成矢量化的地图实体。常见的方法如下图1所示。

之前的工作主要分为三种思路：

图1(a): 基于分割的解码方法，该方法涉及语义分割，然后使用启发式后处理算法生成矢量化地图。然而，这种方法需要大量的处理时间。
图1(b): 基于检测的解码方法识别对应于各种实例的关键点，然后按顺序生成矢量化地图组件。但是，仅依赖关键点可能无法充分捕捉实例的多样化形状，从而阻碍了生成准确的高精地图。
图1(c): 各种基于可学习查询的解码方法，这些方法通过并行从BEV特征中解码可学习查询，直接预测矢量化地图组件。由于初始可学习查询与给定场景无关，它们限制了同时捕获复杂场景中地图实例的语义和几何信息的能力。

在这篇论文中，作者介绍了一种新的端到端高精地图构建框架，称为Mask2Map。如图1(d)所示，Mask2Map通过利用分割掩码来区分BEV领域中不同类别的实例。所提出的Mask2Map架构包括两个网络：实例级掩码预测网络（Instance Level Mask Prediction Network，IMPNet）和掩码驱动地图预测网络（Mask-Driven Map Prediction Network，MMPNet）。最初，IMPNet从传感器数据构建多尺度BEV特征，并生成掩码感知查询，从全局角度捕获实例的语义特征。遵循实例分割模型Mask2Former的框架，作者设计了掩码感知查询，能够生成与BEV范围中不同类别的实例相关联的BEV分割掩码。随后，基于IMPNet提供的掩码感知查询，MMPNet动态地从BEV范围的局部角度预测地图实例的有序点集。

方法论

创新点

作者引入了几种创新方法来提高预测高精地图的准确性：

设计了位置查询生成器（Positional Query Generator，PQG），它生成捕获全面位置信息的实例级位置查询，以增强掩码感知查询。
大多数现有方法在构建高精地图时没有考虑每个地图实例的点级信息，但是作者引入了几何特征提取器（Geometric Feature Extractor，GFE）来捕获每个实例的几何结构。GFE处理BEV分割掩码，从BEV特征中提取地图实例的点级几何特征。
作者观察到由于IMPNet和MMPNet的查询与不同实例的GT相关联，Mask2Map的性能受到限制。为了解决这个问题，作者提出了一种网络间去噪训练策略（Inter-network Denoising Training ）。这种方法使用嘈杂的GT查询和扰动的GT分割掩码作为IMPNet的输入，并引导模型对抗噪声，从而确保网络间的一致性并提高高精地图构建的性能。

模型结构

Mask2Map的整体架构如下图2所示。Mask2Map架构包括两个网络：IMPNet和MMPNet。首先，IMPNet生成从全局视角捕获全面语义信息的掩码感知查询。随后，MMPNet利用通过PQG和GFE获得的几何信息，从局部视角构建更详细的矢量化地图。

实例级掩码预测网络（IMPNet）

IMPNet由BEV编码器和掩码感知查询生成器组成。BEV编码器从传感器数据中提取多尺度BEV特征，掩码感知查询生成器产生掩码感知查询，随后用于生成BEV分割掩码。

BEV编码器： IMPNet通过处理多视图相机图像、激光雷达点云或两者的融合，生成BEV特征。多视图相机图像通过LSS操作转换为BEV表示。激光雷达点云通过体素编码转换为BEV表示。当集成相机和激光雷达传感器进行融合时，从两种模态提取的BEV特征被连接并通过额外的卷积层。

掩码驱动地图预测网络（MMPNet）

MMPNet包括三个主要组成部分：位置查询生成器（Positional Query Generator）、几何特征提取器（Geometric Feature Extractor）和掩码引导地图解码器（Mask-Guided Map Decoder）。位置查询生成器注入位置信息以增强掩码感知查询，而几何特征提取器处理BEV分割掩码以从BEV特征中提取几何特征。最后，掩码引导地图解码器使用位置查询生成器和几何特征提取器提供的特征，预测地图实例的类别和有序点集的坐标。

网络间去噪训练

Mask2Map通过IMPNet传递掩码感知查询给MMPNet，以进行实例特征的层次化细化。为了确保有效的训练，作者为IMPNet分配了实例分割损失，为MMPNet分配了地图构建损失。IMPNet和MMPNet使用的查询应该通过二分匹配与它们各自的GT进行匹配。然而，当IMPNet和MMPNet的查询与不同实例的GT相关联时，匹配过程中可能会出现不一致性。作者观察到这种网络间的不一致性往往会引发收敛速度变慢和性能下降。

为了解决这个问题，作者采用了去噪训练策略。关键思想是将从每个GT实例派生的嘈杂GT查询，合并到IMPNet内的可学习查询中（见图2）。作者的模型被训练以去噪这些查询，通过直接将它们与相应的GT匹配。这与通过二分匹配将可学习查询与GT匹配的方式形成对比。因此，这种策略被称为网络间去噪训练。这个过程引导模型在IMPNet和MMPNet使用的查询之间建立对应关系，有效减轻了网络间的不一致性。此外，除了GT查询，作者还生成了扰动的GT分割掩码，以替代IMPNet的BEV分割掩码。

作者通过为每个实例的GT类别分配所有类别嵌入向量之一来生成GT查询。作者通过以概率λ随机替换类嵌入向量与其他类别之一来添加翻转噪声。同时，作者还通过将地图噪声添加到每个实例的有序点序列中，并将其光栅化，生成扰动的GT分割掩码，如图3(c)所示。

嘈杂GT查询和可学习查询的组合被称为可学习实例查询。与使用BEV分割掩码不同，作者专门使用扰动的GT分割掩码进行嘈杂GT查询。嘈杂GT查询通过IMPNet和MMPNet传递，其预测结果与相应的GT匹配，而不进行二分匹配。

训练损失

用于训练Mask2Map的总损失L由下式给出：

实验

实验设置

数据集。 作者在nuScenes 和 Argoverse2 两个公开数据集上做了测试。

评估指标。 作者定义了感知范围为横向方向 [-15.0m, 15.0m] 和纵向方向 [-30.0m, 30.0m]。作者将地图实例分为三类用于高精地图构建：人行横道、车道分隔线和道路边界。作者采用两种评估指标：基于 Chamfer 距离提出的平均精度 (AP) 和基于光栅化的 AP 。作者主要使用 Chamfer 距离度量，使用 0.5、1.0 和 1.5 米的阈值计算平均精度 (mAP)。对于基于光栅化的平均精度 (mAP†)，作者测量每个地图实例的交并比，阈值设置为 {0.50, 0.55, ..., 0.75} 用于人行横道和 {0.25, 0.30, ..., 0.50} 用于线形元素。为了进一步评估网络间匹配一致性比率，作者使用了查询利用率 (Query Utilization, Util) 指标，该指标计算 MMPNet 的第一解码器层与 IMPNet 的最后一层匹配的一致性比率。

性能比较

nuScenes 上的结果。 表1展示了 Mask2Map 在 nuScenes 验证集上的全面性能分析，使用 Chamfer 距离度量。Mask2Map 建立了新的最先进性能，显著优于现有方法。当仅使用相机输入时，Mask2Map 在 24 个周期内取得了 71.6% mAP 的显著结果，在 110 个周期内取得了 74.6% mAP，分别比之前的最先进模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。当使用相机-激光雷达融合时，Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光栅化度量评估了 Mask2Map 的性能。值得注意的是，作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的显著性能。

Argoverse2 上的结果。 表3展示了几种高精地图构建方法在 Argoverse2 验证集上的性能评估。所提出的 Mask2Map 与现有模型相比显示出显著的性能提升。Mask2Map 超过了当前领先的方法 MapTRv2，提高了 4.1% mAP，表明作者的模型在不同场景中实现了一致的性能。

消融研究

作者进行了消融研究，以评估 Mask2Map 核心思想的贡献。在这些实验中，使用了仅相机输入和 ResNet50 骨干网络。训练在 nuScenes 训练数据集的 1/4 上进行了 24 个周期。评估在完整验证集上执行。

主要组件的贡献： 表4展示了 Mask2Map 每个组件的影响。作者通过逐个添加每个组件来评估性能。第一行代表一个基线模型，使用基于 LSS 的 BEV 编码器提取 BEV 特征，并使用可变形注意力预测矢量化地图实例。将 IMPNet 添加到基线模型时，作者注意到 mAP 显著增加了 5.9%，表明包含掩码感知查询（能够生成实例分割结果）显著提升了高精地图构建的性能。此外，添加 MMPNet 使 mAP 进一步提高了 3.8%，强调了通过 BEV 分割掩码注入地图实例的位置和几何信息的重要性。最后，作者的网络间去噪训练提供了额外的 6.5% mAP 增加，强调了其在提升性能中的有效性。

MMPNet 子模块的贡献： 作者在表5中详细研究了 PQG 和 GFE 的贡献。仅 GFE 就比基线贡献了显著的 3.1% mAP 增加，而仅 PQG 则产生了 3.4% mAP 的改进。PQG 和 GFE 的组合通过 4.8% mAP 进一步提高了性能，展示了它们的互补效应。

网络间去噪训练对匹配一致性的影响： 作者进一步研究了网络间去噪训练的影响。如表6所示，网络间去噪训练将匹配比率 Util 从 24.7% 显著提高到 74.7%，这转化为整体 mAP 性能的 6.5% 显著增加。这表明作者的网络间去噪训练有效地减轻了 IMPNet 和 MMPNet 之间查询到 GT 匹配的不一致性。

网络间去噪训练中噪声的影响： 在表7中，作者探索了在网络间去噪训练中使用的地图噪声的影响。作者将方法与不使用地图噪声的 GT 分割掩码的基线进行了比较。结果表明，在 GT 中添加地图噪声比基线提高了 0.8% mAP。

定性分析

定性结果。 图4展示了所提出的 Mask2Map 产生的定性结果。作者与当前的最先进方法 MapTRv2 进行了比较。注意，Mask2Map 产生了比 MapTRv2 更好的地图构建结果。

总结

作者介绍了一种名为Mask2Map的端到端在线高精地图构建方法。Mask2Map利用IMPNet生成掩码感知查询和BEV分割掩码，从全局视角捕获语义场景上下文。随后，MMPNet通过PQG和GFE增强掩码感知查询，整合语义和几何信息。最后，掩码引导地图解码器预测地图实例的类别和有序点集。此外，作者提出了网络间去噪训练，以减轻IMPNet和MMPNet之间由于不同的二分匹配结果导致的网络间不一致性。作者在nuScenes和Argoverse2基准测试上的评估表明，所提出的想法比基线带来了显著的性能提升，以相当大的优势超越了现有的高精地图构建方法。

分割仍旧发光！Mask2Map：爆拉MapTRv2 近10个点~