DiffMap：首个利用LDM来增强高精地图构建的网络-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

论文标题：

DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model

论文作者：

Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

01 背景简介

对自动驾驶车辆来说，高清（HD）地图能够帮助其提高对环境理解（感知）的准确度和导航的精度。然而，人工建图面临繁杂和高成本的问题。为此，当前研究将地图构建集成到BEV（鸟瞰视角）感知任务中，在BEV空间中构建栅格化HD地图视为一个分割任务，可以理解为获得BEV特征后增加使用类似于FCN（全卷积网络）的分割头。例如，HDMapNet通过LSS（Lift，Splat，Shoot）编码传感器特征，然后采用多分支FCN进行语义分割、实例检测和方向预测来构建地图。

但目前此类方法（基于像素的分类方法）仍存在固有局限性，包括可能忽略特定类别属性，这可能导致分隔带扭曲和中断、行人横道模糊以及其他类型的伪影和噪声，如图1（a）所示。这些问题不仅影响地图的结构精度，还可能直接影响自动驾驶系统的下游路径规划模块。

▲图1｜HDMapNet，DiffMap和GroundTruth效果对比

因此，模型最好能考虑HD地图的结构先验信息，如车道线的平行和笔直特性。一些生成模型在捕捉图像真实性和固有特性具备这样的能力。例如，LDM（潜在扩散模型）在高保真图像生成方面展现了巨大潜力，并在与分割增强相关的任务中证明了其有效性。另外，还可以通过引入控制变量，进一步指导图像的生成以满足特定的控制要求。因此，将生成模型应用于捕捉地图结构先验，有望减少分割伪影并提高地图构建性能。

在本文中，作者提出DiffMap网络。该网络首次通过使用改进的LDM作为增强模块，对现有的分割模型进行地图结构化先验建模并支持即插即用。DiffMap不仅能通过添加和删除噪声的过程学习地图先验，还可以将BEV特征集成为控制信号，以确保输出与当前帧观测相匹配。实验结果表明，DiffMap能够有效地生成更加平滑合理的地图分割结果，同时极大地减少了伪影，提高了整体的地图构建性能。

02 相关工作

2.1 语义地图构建

在传统的高清（HD）地图构建中，语义地图通常是基于激光雷达点云手动或半自动标注的。一般基于SLAM的算法来构建全局一致的地图，并手动为地图添加语义标注。然而，这种方法费时费力，同时在更新地图方面也存在极大挑战，从而限制了其可扩展性和实时性能。

HDMapNet提出了一种使用车载传感器动态构建局部语义地图的方法。它将激光雷达点云和全景图像特征编码到鸟瞰视图（BEV）空间，并使用三个不同的头部进行解码，最终产生一个矢量化的局部语义地图。SuperFusion专注于构建远程高精度语义地图，利用激光雷达深度信息增强图像深度估计，并使用图像特征引导远程激光雷达特征预测。然后采用类似于HDMapNet的地图检测头获得语义地图。MachMap将任务划分为折线检测和多边形实例分割，并使用后处理来细化掩码以获得最终结果。后续的研究聚焦在端到端在线建图，直接获得矢量化的高清地图。无需手动标注的语义地图动态构建有效地降低了构建成本。

2.2 扩散模型应用于分割和检测

去噪扩散概率模型（DDPMs）是基于马尔可夫链的一类生成模型，在图像生成等领域展现出优秀的性能，并逐步扩展到分割和检测等各种任务。SegDiff将扩散模型应用于图像分割任务，其中使用的UNet编码器进一步解耦为三个模块：E、F和G。模块G和F分别编码输入图像I和分割图，然后在E中通过加法合并，以迭代地细化分割图。DDPMS使用基础分割模型产生初始预测先验，并利用扩散模型对先验进行细化。DiffusionDet将扩散模型扩展到目标检测框架，将目标检测建模为从噪声框到目标框的去噪扩散过程。

扩散模型也应用于自动驾驶领域，如MagicDrive利用几何约束合成街景，以及Motiondiffuser将扩散模型扩展到多智能体运动预测问题。

2.3 地图先验

目前有几种方法通过利用先验信息（包括显式的标准地图信息和隐式的时间信息）来增强模型鲁棒性，减少车载传感器的不确定性。MapLite2.0以标准定义（SD）先验地图为起点，并结合车载传感器实时推断局部高清地图。MapEx和SMERF利用标准地图数据改善车道感知和拓扑理解。SMERF采用基于Transformer的标准地图编码器编码车道线和车道类型，然后计算标准地图信息与基于传感器的鸟瞰视图（BEV）特征之间的交叉注意力，以集成标准地图信息。NMP通过将过去的地图先验数据与当前感知数据相结合，为自动驾驶汽车提供长期记忆能力。MapPrior结合判别式和生成式模型，在预测阶段将基于现有模型生成的初步预测编码为先验，注入生成模型的离散潜在空间，然后使用生成模型进行细化预测。PreSight利用先前行程的数据优化城市尺度的神经辐射场，生成神经先验，增强后续导航中的在线感知。

03 方法精析

3.1 准备工作

3.2 整体架构

如图2所示。DiffMap作为解码器，将扩散模型纳入语义地图分割模型，该模型以周围多视角图像和LiDAR点云作为输入，将其编码为BEV空间并获得融合的BEV特征。然后采用DiffMap作为解码器生成分割图。在DiffMap模块中，将BEV特征作为条件来引导去噪过程。

▲图2｜DiffMap架构©️【深蓝AI】编译

◆语义地图构建的基线：基线主要遵循BEV编码器-解码器范式。编码器部分负责从输入数据（LiDAR和/或相机数据）中提取特征，将其转换为高维表示。同时，解码器通常作为分割头，将高维特征表示映射到相应的分割图。基线在整个框架中起两个主要作用：监督者和控制器。作为监督者，基线生成分割结果作为辅助监督。同时，作为控制器，它提供中间BEV特征作为条件控制变量，以引导扩散模型的生成过程。

◆DiffMap模块：沿袭LDM，作者在基线框架中引入DiffMap模块作为解码器。LDM主要由两部分组成：一个图像感知压缩模块（如VQVAE）和一个使用UNet构建的扩散模型。首先，编码器将地图分割ground truth 编码为潜在空间中的，其中表示潜在空间的低维度。随后，在低维潜在变量空间中执行扩散和去噪，然后使用解码器将潜在空间恢复到原始像素空间。

首先通过扩散过程添加噪声，在每个时间步获得噪声潜在图，其中。然后在去噪过程中，UNet作为噪声预测的主干网络。为了增强分割结果的监督部分，并希望DiffMap模型在训练期间直接为实例相关预测提供语义特征。因此，作者将UNet网络结构分为两个分支，一个分支用于预测噪声，如传统扩散模型，另一个分支用于预测潜在空间中的。

如图3所示。获得潜在图预测后，将其解码到原始像素空间，作为语义特征图。然后就可以按照HDMapNet提出的方法从中获得实例预测，输出三种不同头的预测：语义分割、实例嵌入和车道方向。这些预测随后用于后处理步骤以矢量化地图。

▲图3｜去噪模块

整个过程是一个有条件的生成过程，根据当前传感器输入下获得地图分割结果。其结果的概率分布可以建模为，其中表示地图分割结果，表示条件控制变量，即BEV特征。作者这里用了两种方式融合控制变量。首先，由于和BEV特征在空间域上具有相同的类别和尺度，将调整为潜在空间大小，然后将它们串联作为去噪过程的输入，如公式5所示。

其次，将交叉注意力机制融入到UNet网络的每一层，其中作为key/value，作为query。交叉注意力模块的公式如下：

3.3 具体实现

◆训练：

◆推理：

04 实验

4.1 实验细节

◆数据集：在nuScenes数据集上验证DiffMap。nuScenes数据集包含1000个场景的多视角图像和点云，其中700个场景用于训练，150个用于验证，150个用于测试。nuScenes数据集还包含注释的高清地图语义标签。

◆架构：使用ResNet-101作为相机分支的主干网络，使用PointPillars作为模型的LiDAR分支主干网络。基线模型中的分割头是基于ResNet-18的FCN网络。对于自编码器，采用VQVAE，该模型在nuScenes分割地图数据集上进行了预训练，以提取地图特征并将地图压缩为基本潜在空间。最后使用UNet来构建扩散网络。

◆训练细节：使用AdamW优化器训练VQVAE模型30个epoch。使用的学习率调度器是LambdaLR，它以指数衰减模式逐渐降低学习率，衰减因子为0.95。初始学习率设置为，批量大小为8。然后，使用AdamW优化器从头开始训练扩散模型30个epoch，初始学习率为2e-4。采用MultiStepLR调度器，该调度器根据指定的里程碑时间点（0.7、0.9、1.0）和在不同训练阶段的缩放因子1/3来调整学习率。最后将BEV分割结果设置为0.15m的分辨率，并将LiDAR点云体素化。HDMapNet的检测范围为[-30m，30m]×[-15m，15m]m，因此相应的BEV地图大小为400×200，而Superfusion使用[0m，90m]×[-15m，15m]并得到600×200的结果。由于LDM的维度约束（在VAE和UNet中下采样8倍），需要将语义地面实况地图的大小填充到64的倍数。

◆推理细节：通过在当前BEV特征条件下对噪声地图执行去噪过程20次来获得预测结果。使用3次采样的平均值作为最终的预测结果。

4.2 评估指标

主要针对地图语义分割和实例检测任务进行平评估。且主要集中在三个静态地图元素上：车道边界、车道分隔线和行人横道。

4.3 评估结果

表1显示了语义地图分割的 IoU 得分比较。DiffMap 在所有区间都显示出显著的改善，尤其在车道分隔线和行人横道上取得了最佳结果。

▲表1｜IoU得分比较

如表2所示，DiffMap方法在平均精度（AP）方面也有显著提升，验证了 DiffMap 的有效性。

▲表2｜MAP得分比较

如表3所示，将DiffMap范式集成到HDMapNet中时，可以观察到，无论是仅使用摄像头还是摄像头-激光雷达融合方法，DiffMap都能提高HDMapNet的性能。这说明DiffMap方法在各类分割任务上都很有效，包括远距离和近距离检测。然而对于边界，DiffMap的表现并不出色，这是因为边界的形状结构不固定，存在许多难以预测的扭曲，从而使捕捉先验结构特征变得困难。

▲表3｜定量分析结果

4.4 消融实验

表4显示了VQVAE中不同下采样因子对检测结果的影响。通过分析DiffMap在下采样因子为4、8、16时的行为可以看到，当下采样因子设置为8x时，结果最佳。

▲表4｜消融实验结果

此外，作者还测量了删除与实例相关的预测模块对模型的影响，如表5所示。实验表明，添加此预测进一步提高了IOU。

▲表5｜消融实验结果（是否包含预测模块）

4.5 可视化

图4展示了DiffMap和基线（HDMapNet-fusion）在复杂场景中的比较。很明显，基线的分割结果忽略了元素内部的形状属性和一致性。相比之下，DiffMap展示了能够纠正这些问题的能力，产生与地图规范很好对齐的分割输出。具体而言，在案例（a）、（b）、（d）、（e）、（h）和（l）中，DiffMap有效地纠正了不准确预测的人行横道。在案例（c）、（d）、（h）、（i）、（j）和（l）中，DiffMap完成或删除了不准确的边界，使结果更接近于现实的边界几何。此外，在案例（b）、（f）、（g）、（h）、（k）和（l）中，DiffMap解决了分隔线断裂的问题，确保了相邻元素的平行性。

▲图4｜定性分析结果

05 总结与未来展望

在本文中，作者设计的DiffMap网络是一种利用潜在扩散模型学习地图结构先验的新方法，从而增强了传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具，其预测结果在远近距离检测场景中都有显著改善。由于该方法具有很强的扩展性，适合研究其他类型的先验信息，例如可以将SD地图先验集成到DiffMap的第二模块中，从增强其性能表现。将来有望在矢量化地图构建中继续有所进步。