本文经自动驾驶之心公众号授权转载,转载请联系出处。
论文标题:
DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model
论文作者:
Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang
01 背景简介
对自动驾驶车辆来说,高清(HD)地图能够帮助其提高对环境理解(感知)的准确度和导航的精度。然而,人工建图面临繁杂和高成本的问题。为此,当前研究将地图构建集成到BEV(鸟瞰视角)感知任务中,在BEV空间中构建栅格化HD地图视为一个分割任务,可以理解为获得BEV特征后增加使用类似于FCN(全卷积网络)的分割头。例如,HDMapNet通过LSS(Lift,Splat,Shoot)编码传感器特征,然后采用多分支FCN进行语义分割、实例检测和方向预测来构建地图。
但目前此类方法(基于像素的分类方法)仍存在固有局限性,包括可能忽略特定类别属性,这可能导致分隔带扭曲和中断、行人横道模糊以及其他类型的伪影和噪声,如图1(a)所示。这些问题不仅影响地图的结构精度,还可能直接影响自动驾驶系统的下游路径规划模块。
▲图1|HDMapNet,DiffMap和GroundTruth效果对比
因此,模型最好能考虑HD地图的结构先验信息,如车道线的平行和笔直特性。一些生成模型在捕捉图像真实性和固有特性具备这样的能力。例如,LDM(潜在扩散模型)在高保真图像生成方面展现了巨大潜力,并在与分割增强相关的任务中证明了其有效性。另外,还可以通过引入控制变量,进一步指导图像的生成以满足特定的控制要求。因此,将生成模型应用于捕捉地图结构先验,有望减少分割伪影并提高地图构建性能。
在本文中,作者提出DiffMap网络。该网络首次通过使用改进的LDM作为增强模块,对现有的分割模型进行地图结构化先验建模并支持即插即用。DiffMap不仅能通过添加和删除噪声的过程学习地图先验,还可以将BEV特征集成为控制信号,以确保输出与当前帧观测相匹配。实验结果表明,DiffMap能够有效地生成更加平滑合理的地图分割结果,同时极大地减少了伪影,提高了整体的地图构建性能。
02 相关工作
2.1 语义地图构建
在传统的高清(HD)地图构建中,语义地图通常是基于激光雷达点云手动或半自动标注的。一般基于SLAM的算法来构建全局一致的地图,并手动为地图添加语义标注。然而,这种方法费时费力,同时在更新地图方面也存在极大挑战,从而限制了其可扩展性和实时性能。
HDMapNet提出了一种使用车载传感器动态构建局部语义地图的方法。它将激光雷达点云和全景图像特征编码到鸟瞰视图(BEV)空间,并使用三个不同的头部进行解码,最终产生一个矢量化的局部语义地图。SuperFusion专注于构建远程高精度语义地图,利用激光雷达深度信息增强图像深度估计,并使用图像特征引导远程激光雷达特征预测。然后采用类似于HDMapNet的地图检测头获得语义地图。MachMap将任务划分为折线检测和多边形实例分割,并使用后处理来细化掩码以获得最终结果。后续的研究聚焦在端到端在线建图,直接获得矢量化的高清地图。无需手动标注的语义地图动态构建有效地降低了构建成本。
2.2 扩散模型应用于分割和检测
去噪扩散概率模型(DDPMs)是基于马尔可夫链的一类生成模型,在图像生成等领域展现出优秀的性能,并逐步扩展到分割和检测等各种任务。SegDiff将扩散模型应用于图像分割任务,其中使用的UNet编码器进一步解耦为三个模块:E、F和G。模块G和F分别编码输入图像I和分割图,然后在E中通过加法合并,以迭代地细化分割图。DDPMS使用基础分割模型产生初始预测先验,并利用扩散模型对先验进行细化。DiffusionDet将扩散模型扩展到目标检测框架,将目标检测建模为从噪声框到目标框的去噪扩散过程。
扩散模型也应用于自动驾驶领域,如MagicDrive利用几何约束合成街景,以及Motiondiffuser将扩散模型扩展到多智能体运动预测问题。
2.3 地图先验
目前有几种方法通过利用先验信息(包括显式的标准地图信息和隐式的时间信息)来增强模型鲁棒性,减少车载传感器的不确定性。MapLite2.0以标准定义(SD)先验地图为起点,并结合车载传感器实时推断局部高清地图。MapEx和SMERF利用标准地图数据改善车道感知和拓扑理解。SMERF采用基于Transformer的标准地图编码器编码车道线和车道类型,然后计算标准地图信息与基于传感器的鸟瞰视图(BEV)特征之间的交叉注意力,以集成标准地图信息。NMP通过将过去的地图先验数据与当前感知数据相结合,为自动驾驶汽车提供长期记忆能力。MapPrior结合判别式和生成式模型,在预测阶段将基于现有模型生成的初步预测编码为先验,注入生成模型的离散潜在空间,然后使用生成模型进行细化预测。PreSight利用先 前行程的数据优化城市尺度的神经辐射场,生成神经先验,增强后续导航中的在线感知。
03 方法精析
3.1 准备工作
3.2 整体架构
如图2所示。DiffMap作为解码器,将扩散模型纳入语义地图分割模型,该模型以周围多视角图像和LiDAR点云作为输入,将其编码为BEV空间并获得融合的BEV特征。然后采用DiffMap作为解码器生成分割图。在DiffMap模块中,将BEV特征作为条件来引导去噪过程。
▲图2|DiffMap架构©️【深蓝AI】编译
◆语义地图构建的基线:基线主要遵循BEV编码器-解码器范式。编码器部分负责从输入数据(LiDAR和/或相机数据)中提取特征,将其转换为高维表示。同时,解码器通常作为分割头,将高维特征表示映射到相应的分割图。基线在整个框架中起两个主要作用:监督者和控制器。作为监督者,基线生成分割结果作为辅助监督。同时,作为控制器,它提供中间BEV特征作为条件控制变量,以引导扩散模型的生成过程。
◆DiffMap模块:沿袭LDM,作者在基线框架中引入DiffMap模块作为解码器。LDM主要由两部分组成:一个图像感知压缩模块(如VQVAE)和一个使用UNet构建的扩散模型。首先,编码器将地图分割ground truth 编码为潜在空间中的,其中表示潜在空间的低维度。随后,在低维潜在变量空间中执行扩散和去噪,然后使用解码器将潜在空间恢复到原始像素空间。
首先通过扩散过程添加噪声,在每个时间步获得噪声潜在图,其中。然后在去噪过程中,UNet作为噪声预测的主干网络。为了增强分割结果的监督部分,并希望DiffMap模型在训练期间直接为实例相关预测提供语义特征。因此,作者将UNet网络结构分为两个分支,一个分支用于预测噪声,如传统扩散模型,另一个分支用于预测潜在空间中的。
如图3所示。获得潜在图预测后,将其解码到原始像素空间,作为语义特征图。然后就可以按照HDMapNet提出的方法从中获得实例预测,输出三种不同头的预测:语义分割、实例嵌入和车道方向。这些预测随后用于后处理步骤以矢量化地图。
▲图3|去噪模块
整个过程是一个有条件的生成过程,根据当前传感器输入下获得地图分割结果。其结果的概率分布可以建模为,其中表示地图分割结果,表示条件控制变量,即BEV特征。作者这里用了两种方式融合控制变量。首先,由于和BEV特征在空间域上具有相同的类别和尺度,将调整为潜在空间大小,然后将它们串联作为去噪过程的输入,如公式5所示。
其次,将交叉注意力机制融入到UNet网络的每一层,其中作为key/value,作为query。交叉注意力模块的公式如下:
3.3 具体实现
◆训练:
◆推理:
04 实验
4.1 实验细节
◆数据集:在nuScenes数据集上验证DiffMap。nuScenes数据集包含1000个场景的多视角图像和点云,其中700个场景用于训练,150个用于验证,150个用于测试。nuScenes数据集还包含注释的高清地图语义标签。
◆架构:使用ResNet-101作为相机分支的主干网络,使用PointPillars作为模型的LiDAR分支主干网络。基线模型中的分割头是基于ResNet-18的FCN网络。对于自编码器,采用VQVAE,该模型在nuScenes分割地图数据集上进行了预训练,以提取地图特征并将地图压缩为基本潜在空间。最后使用UNet来构建扩散网络。
◆训练细节:使用AdamW优化器训练VQVAE模型30个epoch。使用的学习率调度器是LambdaLR,它以指数衰减模式逐渐降低学习率,衰减因子为0.95。初始学习率设置为,批量大小为8。然后,使用AdamW优化器从头开始训练扩散模型30个epoch,初始学习率为2e-4。采用MultiStepLR调度器,该调度器根据指定的里程碑时间点(0.7、0.9、1.0)和在不同训练阶段的缩放因子1/3来调整学习率。最后将BEV分割结果设置为0.15m的分辨率,并将LiDAR点云体素化。HDMapNet的检测范围为[-30m,30m]×[-15m,15m]m,因此相应的BEV地图大小为400×200,而Superfusion使用[0m,90m]×[-15m,15m]并得到600×200的结果。由于LDM的维度约束(在VAE和UNet中下采样8倍),需要将语义地面实况地图的大小填充到64的倍数。
◆推理细节:通过在当前BEV特征条件下对噪声地图执行去噪过程20次来获得预测结果。使用3次采样的平均值作为最终的预测结果。
4.2 评估指标
主要针对地图语义分割和实例检测任务进行平评估。且主要集中在三个静态地图元素上:车道边界、车道分隔线和行人横道。
4.3 评估结果
表1显示了语义地图分割的 IoU 得分比较。DiffMap 在所有区间都显示出显著的改善,尤其在车道分隔线和行人横道上取得了最佳结果。
▲表1|IoU得分比较
如表2所示,DiffMap方法在平均精度(AP)方面也有显著提升,验证了 DiffMap 的有效性。
▲表2|MAP得分比较
如表3所示,将DiffMap范式集成到HDMapNet中时,可以观察到,无论是仅使用摄像头还是摄像头-激光雷达融合方法,DiffMap都能提高HDMapNet的性能。这说明DiffMap方法在各类分割任务上都很有效,包括远距离和近距离检测。然而对于边界,DiffMap的表现并不出色,这是因为边界的形状结构不固定,存在许多难以预测的扭曲,从而使捕捉先验结构特征变得困难。
▲表3|定量分析结果
4.4 消融实验
表4显示了VQVAE中不同下采样因子对检测结果的影响。通过分析DiffMap在下采样因子为4、8、16时的行为可以看到,当下采样因子设置为8x时,结果最佳。
▲表4|消融实验结果
此外,作者还测量了删除与实例相关的预测模块对模型的影响,如表5所示。实验表明,添加此预测进一步提高了IOU。
▲表5|消融实验结果(是否包含预测模块)
4.5 可视化
图4展示了DiffMap和基线(HDMapNet-fusion)在复杂场景中的比较。很明显,基线的分割结果忽略了元素内部的形状属性和一致性。相比之下,DiffMap展示了能够纠正这些问题的能力,产生与地图规范很好对齐的分割输出。具体而言,在案例(a)、(b)、(d)、(e)、(h)和(l)中,DiffMap有效地纠正了不准确预测的人行横道。在案例(c)、(d)、(h)、(i)、(j)和(l)中,DiffMap完成或删除了不准确的边界,使结果更接近于现实的边界几何。此外,在案例(b)、(f)、(g)、(h)、(k)和(l)中,DiffMap解决了分隔线断裂的问题,确保了相邻元素的平行性。
▲图4|定性分析结果
05 总结与未来展望
在本文中,作者设计的DiffMap网络是一种利用潜在扩散模型学习地图结构先验的新方法,从而增强了传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具,其预测结果在远近距离检测场景中都有显著改善。由于该方法具有很强的扩展性,适合研究其他类型的先验信息,例如可以将SD地图先验集成到DiffMap的第二模块中,从增强其性能表现。将来有望在矢量化地图构建中继续有所进步。