在线高精地图如何重塑自动驾驶行业？清华团队的深度思考~-51CTO.COM

写在前面&笔者的理解：

现在各大厂商都在布局轻地图（轻高精地图）或无图（无高精地图）方案，而其中之一就是local map（局部地图），并且辅助以SD地图（标准地图），所以对这个领域的整体把握非常具有实际意义。局部地图不仅提供了复杂的道路网络细节，还作为车辆定位、导航和决策等关键任务的基础输入。由于标准定义地图（SD Map）具有低成本、易获取和高通用性的特点，结合SD地图作为先验信息的感知方法在局部地图感知领域展现出显著潜力。

今天自动驾驶之心和大家分享的是对SD地图作为先验信息整合到局部地图感知方法中的最新进展的全面概述和总结。首先介绍了将SD地图作为先验信息融入局部地图感知方法的任务定义和总体流程，以及相关的公共数据集。随后，重点讨论了多源信息的表示与编码方法，以及多源信息融合的方法。为应对这一快速发展的趋势，本文对该领域的多样化研究工作进行了全面而细致的综述。最后，文章探讨了相关问题和未来挑战，以期帮助研究人员理解该领域当前的趋势和方法。

介绍

局部地图感知是智能驾驶领域中的一项关键且具有挑战性的任务。它涉及对车辆周围环境的详细理解和实时建模，作为自动驾驶系统中决策和导航的基础。局部地图不仅提供关于道路和车道的信息，还涵盖对障碍物、交通标志、行人及其他动态或静态物体的检测与识别。这些信息对于确保车辆安全运行和高效路径规划至关重要。没有精确的局部地图感知，自动驾驶车辆可能偏离路线、引发交通事故，甚至威胁乘客安全。因此，局部地图感知在自动驾驶生态系统中扮演着不可或缺的角色。

与典型的目标检测不同，局部地图感知需要在处理复杂和动态环境信息的同时，在各种光照条件和天气情况下保持高精度。例如，路上的阴影、光线反射、动态障碍物以及交通标志的遮挡都会干扰局部地图感知。此外，传感器噪声和数据延迟进一步加剧了感知任务的复杂性。因此，开发鲁棒的局部地图感知技术对于实现安全可靠的自动驾驶至关重要。

为了应对这些问题，许多研究人员提出了各种方法。Chen 和 Lei提出了一种利用地面纹理进行视觉定位和地图构建的方法，通过全局和局部优化提高了定位精度和地图更新的精确度。还有研究人员[2]通过利用SD地图并通过Transformer编码器集成SD地图信息，增强了在线地图预测和车道拓扑理解，从而缓解了车道线遮挡或能见度差的问题，显著提升了车道检测和拓扑预测的性能。研究人员[3]提出了一种创新的视频车道检测算法，该算法通过使用遮挡感知的基于记忆的细化（OMR）模块，利用障碍物掩码和记忆信息来提高遮挡下的检测精度和鲁棒性。RVLD通过递归传播当前帧的状态到下一帧，利用前几帧的信息提高了车道检测的可靠性。此外，还有 Laneaf、LaneATT、Streammapnet等方法来缓解这些问题。

在先前的自动驾驶研究中，高精地图（HDMap）一直是至关重要的。HDMap 具有绝对和相对精度在1米以内的特点，提供了高精度、新鲜度和丰富的电子地图信息，包括广泛的道路和环境信息。这些地图为安全高效的自动驾驶提供了精确的导航和定位服务。然而，HDMap 面临着重大挑战，主要是在实时更新和成本控制方面。城市道路环境经常变化，任何微小的改变都可能影响自动驾驶车辆的行驶安全。传统的 HDMap 制作方法需要大量的时间和资源，难以实现实时更新，研究[8] 和 [9] 都指出了类似的问题。此外，HDMap 的制作和维护成本极高，使用传统方法的成本可达每公里数千美元。

在这种背景下，“重感知，轻地图”这种方法在业内获得了广泛认可。这种方法强调使用车载传感器进行自动驾驶感知任务，并辅以轻量级地图信息。这种策略减少了对实时地图更新的依赖，降低了维护成本，同时轻量级地图信息可以有效弥补车载传感器的某些局限性，增强模型的鲁棒性。作为交通导航和地理信息服务中广泛使用的电子地图，标准定义地图（SD Map）具有低制作和维护成本、易于获取和数据量小的特点，适合作为轻量级地图来辅助车载传感器构建自动驾驶的局部地图。

尽管基于 SD Map 构建局部地图的前景广阔，但面临着诸多挑战，且在这一领域缺乏全面的研究综述。为了解决这一空白，本综述旨在提供利用 SD Map 的局部地图构建方法的最新进展的全面概述。具体而言，重点是 SD Map 信息表示方法和多模态数据融合技术在局部地图感知任务中的应用。本研究深入探讨了该领域的主要发展、挑战和研究方向。对现有基于 SD Map 作为先验信息的局部地图构建文献进行了回顾。分析了这些方法的优缺点，为其在实时自动驾驶应用中的有效性和适用性提供了见解。重点介绍了各种传感器信息的表示和编码方法，以及多源传感器数据的融合技术，这对于实时局部地图生成至关重要。讨论了这些方法的基本原理、架构和性能，揭示了它们在该领域的可行性和实用性。此外，本文还识别了使用 SD Map 作为先验信息进行局部地图构建的关键挑战和开放研究问题。

背景知识

此节将明确基于SD地图的局部地图构建的定义，并总结此类任务的一般流程。介绍SD地图的组成和应用场景。最后，列举在局部地图感知任务中常用的公共数据集和评估指标。

基于SD地图的局部地图构建任务定义

局部地图感知任务涉及创建一个准确的地图，表示车辆周围的环境，以支持自动驾驶的决策和规划。这一任务通常依赖于来自各种传感器的数据，包括相机、激光雷达、雷达和GPS。此外，结合SD地图中的先验信息可以增强模型的鲁棒性，减少车载传感器的不确定性对模型的影响，从而提高整体模型性能。局部地图感知任务的核心在于实时感知和理解车辆周围的环境。

用于局部地图构建的神经网络的一般过程可以总结为几个关键组件，如图1所示。在输入环视图像和激光雷达点云后，局部地图构建网络的整体架构可以分为不同部分：用于图像特征提取的骨干网络（backbone）、用于视角转换的PV2BEV（透视视角到鸟瞰视角）模块、用于多模态特征融合的模块，以及用于车道检测的特定任务头（task-specific heads）。这些组件构成了局部地图感知网络的基本框架。环视相机和激光雷达捕获的图像和点云数据首先通过骨干网络处理，以获得（多尺度的）图像特征。这些特征随后通过PV2BEV模块转换为鸟瞰视角，并通过模态融合模块与SD地图数据融合，最终通过不同的特定任务头输出。

标准定义地图

SD地图（Standard Definition Map的缩写）是一种提供基本地理信息和道路网络结构的数字地图技术。它广泛应用于日常导航和地理信息服务，为用户提供便利。SD地图主要提供道路的中心线骨架，但不包含详细的车道信息、道路标志或其他高精度环境特征。

对于局部地图构建任务，SD地图提供了三大主要优势。首先，SD地图数据易于获取。通常可以从开放的地理数据源（如OpenStreetMap）免费获得，适用于大规模应用。其次，与HD地图相比，SD地图的生产和维护成本显著降低。最后，SD地图具有高度的通用性，覆盖了大多数类型的道路，可以为局部地图构建任务提供相关的道路信息。OSM和百度地图等平台可以作为SD地图的数据来源。例如，OpenStreetMap（OSM）是一个由全球志愿者创建和维护的协作项目，提供免费的、可编辑的、开放内容的地图。OSM数据包括广泛的地理信息，如道路、建筑、公园和河流，用户可以自由访问、编辑和使用。

数据集

在鸟瞰视角（BEV）局部地图构建领域，常用的数据集包括KITTI、nuScenes、ApolloScape、Argoverse、Openlane和Waymo开放数据集。

由卡尔斯鲁厄理工学院和丰田创建的KITTI数据集提供了双目相机、激光雷达和GPS/IMU数据，涵盖了城市、农村和高速公路场景，适用于目标检测、跟踪和道路检测等任务。Motional发布的nuScenes 数据集包括来自六个相机、五个Radar、一个激光雷达、IMU和GPS的数据，适用于各种天气和光照条件下的城市交通场景。由百度发布的ApolloScape 数据集提供了覆盖各种城市道路场景的高精度3D标注数据，适用于车道检测和语义分割等任务。

由Argo AI发布的Argoverse 数据集包括双目相机、激光雷达、GPS和IMU数据，提供详细的3D标注和车道标记，主要用于3D目标检测和车道检测。Waymo发布的Waymo 开放数据集涵盖了多种天气和交通条件，提供了来自激光雷达和相机的高质量数据，适用于3D目标检测、跟踪和车道检测等任务。

OpenLane-V2（又名OpenLane-Huawei或Road Genome）是一个由上海人工智能实验室和华为诺亚方舟实验室联合开源的面向下一代自动驾驶场景道路结构感知的基准数据集。它是首个包含交通场景中道路结构拓扑关系的数据集。

ONCE-3DLanes 数据集是一个具有3D空间车道布局标注的真实世界自动驾驶数据集，是为了促进单目3D车道检测方法的发展而构建的新的基准数据集。该数据集在中国的多个地理位置收集，包括高速公路、桥梁、隧道、郊区和市区，涵盖不同的天气条件（晴天/雨天）和光照条件（白天/夜间）。整个数据集包含211K张图像及其对应的相机坐标系下的3D车道标注。

CurveLanes是一个新的基准车道检测数据集，包含15万张用于交通车道检测中曲线和多车道等困难场景的车道图像。该数据集在中国多个城市的真实城市和高速公路场景中收集。所有图像都经过精心挑选，其中大多数图像至少包含一条曲线车道。该数据集中还可以找到更具挑战性的场景，如S形曲线、Y形车道、夜间和多车道等。

常用评估指标

车道提取的评估指标

mAP是评估目标检测模型性能的常用指标。mAP通过匹配预测的边界框与真实框来计算正检（TP）、误检（FP）和漏检（FN），以测量模型在不同阈值水平下的精度。首先，根据指定的交并比（IoU，Intersection over Union）阈值，将预测框与真实框进行匹配。然后，计算每个类别的精度（TP / (TP + FP)）和召回率（TP / (TP + FN)），并绘制精度-召回曲线。通过插值方法计算曲线下的面积，得到单个类别的平均精度（AP）。最后，所有类别的AP值的均值即为mAP，反映了模型的整体检测性能，值越高表示性能越好。

平均交并比（mIoU）是评估语义分割模型性能的常用指标。mIoU衡量模型对各种对象的像素级分类准确性。计算过程涉及几个步骤。对于每个类别，通过将预测区域与真实区域之间的相交像素数（Intersection）除以这些区域的并集像素数（Union）来计算IoU。这一计算对每个类别进行，然后所有类别的IoU均值即为mIoU，提供了模型分割准确性的平均性能评估，值越高表示分割性能越好。

传统的目标检测指标，如mAP，可能无法全面捕捉检测任务中的所有重要方面，例如目标速度和属性的估计，以及位置、大小和方向的准确性。因此，提出了nuScenes 检测评分（NDS），以综合考虑这些因素。NDS集成了多个关键指标，克服了现有指标的局限性，提供了更全面的性能评估。

NDS的计算公式如下：

在该公式中，mAP代表平均精度（mean Average Precision），用于衡量检测精度。TP集合包含五个真正例指标的平均值：ATE（平均平移误差）、ASE（平均尺度误差）、AOE（平均方向误差）、AVE（平均速度误差）和AAE（平均属性误差）。

拓扑推理的评估指标

OpenLane-V2 将任务分为三个子任务：3D车道检测、交通元素识别和拓扑推理。整体任务性能通过OpenLane-V2评分（OLS）来描述，该评分是每个子任务指标的平均值。3D车道检测的指标，DETl，可以表示为不同阈值的平均AP [公式]，其中AP使用Fréchet距离计算。交通元素检测与目标检测类似，使用AP进行评估，IoU阈值设为0.75。交通元素具有多种属性，如交通灯的颜色，这些属性与车道的通行性密切相关，因此也必须考虑属性。假设A是所有属性的集合，评估包括属性分类准确率。

OpenLane-V2使用TOP评分来评估拓扑推理的质量，类似于mAP指标，但经过调整以适应图的结构。基本上，这是将拓扑预测问题转化为链接预测问题，并通过计算所有顶点的平均AP来评估算法性能。第一步是确定一种匹配方法，以配对真实的和预测的顶点（即中心线和交通元素）。对于中心线，使用Fréchet距离；对于交通元素，使用IoU。当两个顶点之间的边的置信度超过0.5时，认为它们是连接的。通过对顶点的所有预测边进行排序并计算累积精度的平均值，获得顶点AP。

多模态表示

图像数据

在鸟瞰图（BEV）的感知任务中，全景相机的图像信息是最重要的输入数据，全景图像的常见特征提取方法遵循自动驾驶感知任务BEVformer 或LSS 的范式。神经网络的骨干模块通过ResNet-50 或101，Mobilenets，EfficientNet，V2-99 等经典且轻量的卷积网络，从各种相机角度提取2D图像特征。其中，ResNet系列因其在训练过程中通过引入残差块解决了深度神经网络中的梯度消失问题而被广泛使用。ResNet等变体通过增加网络的深度和宽度来增强特征提取能力。由于在图像识别和特征提取方面的出色表现，这些网络被广泛应用于BEV局部地图感知任务中。通常，骨干模块后会附加一个特征金字塔网络（FPN）模块。FPN集成了不同尺度的特征图，生成更强大的多尺度特征表示。这似乎是默认的基本配置，融合层的数量可以根据网络类型选择。这种多尺度特征融合有助于提高对不同大小物体的检测和识别，从而增强整体性能。

除了这些轻量级且简单的骨干网络外，未来更大规模的骨干网络将成为主流趋势。随着Transformer在计算机视觉领域的成功，基于Transformer的特征提取方法也被应用于BEV局部地图感知任务，如Swin。参考Nuscece排行榜上的方法，最先进的方法都使用预训练的VIT-L作为骨干网络，或者它的变体EVA-02。尽管大型模型的参数数量多且计算复杂度高，可能严重影响推理速度，但这些大型预训练骨干网络是提高模型性能的关键。尽管如此，其性能直接推动了检测精度的提升。这些大模型的训练需要海量数据支持，但数据标注成本高且有限，自监督训练方法将成为主流。随着BERT 预训练模型在自然语言处理中的各种自监督任务中广泛应用，并展示了强大的语言表示学习能力，在计算机视觉任务中的自监督学习中，MAE 随机遮盖图像上的补丁并实现了遮盖图像的自监督学习。基于MIM 的预训练算法的成就正在计算机视觉领域蓬勃发展。此类自监督预训练模型不仅可以解决高成本标签的问题，还可以更好地学习图像的表示关系。

无论是基于CNN还是Transformer方法，其最终目标都是获得高质量的全景图像特征表示。对于BEV局部地图感知任务，特征表示至关重要，因为它直接影响感知系统的准确性和鲁棒性。FPN模块或Transformer的全局特征提取机制可以显著提高网络的整体性能，使其在复杂驾驶环境中的感知和决策更加有效。

激光雷达点云数据

在BEV的局部地图感知任务中，除了使用纯视觉环绕相机作为单一数据输入外，多模态方法还融合了激光雷达点云和相机数据等多模态信息以执行深度感知的BEV变换。与单一视觉方法和多模态（RGB+LiDAR）方法相比，尽管增加了额外的计算复杂度，多模态融合方法在准确性方面表现优异。激光雷达点云数据的处理是多模态感知任务中的关键步骤。P-mapnet中的激光雷达点云数据特征提取首先需要将点云体素化，然后使用多层感知器（MLP）提取每个点的局部特征。最大池化选择多个局部特征中的最大特征值来形成全局特征表示，增强模型对点云数据的全局感知能力。

给定激光雷达点云P和全景图像I，公式如下：

其中，代表特征提取器，提取多模态输入以获取BEV特征，代表解码器，输出检测结果。

MapLite 2.0方法进一步将激光雷达点云数据与其他传感器数据集成，并与从SD地图（如OpenStreetMap）获得的粗略道路地图集成，使用SD地图中的粗略路线信息来优化道路的几何形状和拓扑结构。这不仅提高了地图的准确性，还增强了对复杂道路环境的理解。它还用于通过鸟瞰图投影激光雷达强度数据在线生成高清地图。通过集成多模态数据，不仅提供了详细的空间信息，还实现了驾驶环境的精确语义分割。

SD地图数据

在增强局部地图感知任务的背景下，整合SD地图信息作为先验知识可以显著提高视觉和激光雷达传感器的性能，特别是在远距离和遮挡场景中。为了有效地将SD地图整合到网络结构中，同时保留其独特的道路信息，已经探索了各种表示形式。SD地图通常可以分为两种形式：栅格和矢量。

图2展示了一个SD地图的示例，说明了如何利用不同形式的SD地图表示来补充局部地图构建过程，从而增强感知系统的整体性能。

特征提取器可以包含多种模态数据。这里S是以道路中心线骨架形式的SD地图先验知识。其中，表示特征提取器，提取多模态输入以获得BEV特征，表示解码器，输出检测结果。

栅格表示

MapLite2.0首次将SD地图引入局部地图感知任务。PriorLane将地图建模为二值图像，其中1代表可驾驶区域，0代表不可驾驶区域。同样，MapVision也采用了one-hot编码方法，然后将位置编码信息串联并通过编码器提取SD地图特征。SD地图通过文章中提出的KEA模块与自车数据对齐，然后与传感器数据融合以获得混合表达。P-MapNet和MapLite2.0都使用栅格化表示SD地图，但区别在于P-MapNet在栅格化SD地图后，使用CNN网络从中提取信息，作为BEV特征优化的额外信息源（即key和val）；MapLite2.0将SD地图作为高清地图的初始估计，将其转换为BEV视角，并与传感器输入的图像结合。通过卷积神经网络进行训练，预测其语义标签。最后，这些语义分割结果被转化为特定标签的距离变换，并使用结构化估计器来维持局部地图估计并整合SD地图先验知识。

矢量表示

SMERF首次提出了一种基于Transformer的编码器模型，用于推断道路拓扑。MapEX和SMERF对地图元素有相似的表示，引入了多段线序列表示和Transformer编码器，以获取场景的最终地图表示。具体而言，SD地图中的道路首先以多段线的形式抽象表示。对于多段线数据，通过均匀采样获得N个数据点。然后，在经过正弦余弦编码后，得到N维的线条描述。考虑一条曲率较小的垂直线，它的所有点的x或y轴值都非常相似。直接将这些点的坐标输入模型可能导致对曲率的区分不足。

因此，使用正弦嵌入会使这种差异更加明显，从而提高模型对这些特征的解释能力。在实际操作中，每条线的坐标将相对于BEV范围归一化到(0,2π)的范围内，然后对每条线的坐标进行嵌入。这些编码数据将经过几层Transformer网络，以获得地图特征表示。

其他信息的编码

SMERF：除了对SD地图的多段线坐标进行编码外，SMERF还使用独热编码将道路类型编码为维度为K（道路类型的数量）的向量。对于感知范围内的地面元素，将获得M * (N * d + K)编码数据，这些数据将经过几层转换以获得地图特征表示。消融实验表明，增加更多的道路类型信息可以提高车道检测和道路拓扑推断的有效性。

多模态融合方法

在以图像作为输入的方法中，例如基于编码器-解码器架构的MapTR，建立了局部地图构建的经典范式，为后续方法铺平了道路。Streammapnet通过整合全面的时间信息，进一步增强了在遮挡区域的表现。3D LaneNet采用了端到端的学习框架，将图像编码、视图间的空间转换和3D曲线提取等任务整合到一个网络中。Gen LaneNet提出了一个两阶段框架，解耦了图像分割子网络和几何编码子网络的学习。此外，一些单目3D车道检测方法仅关注视觉图像作为输入。许多模型也仅依赖于视觉图像。另一方面，HDMapNet作为代表性多模态方法，通过对激光雷达点云进行编码并预测鸟瞰视角下的矢量化地图元素，实现了多传感器数据的有效融合。此外，其他模型也将激光雷达点云数据作为额外的输入。图3展示了近年来局部地图构建的发展趋势。考虑到构建高精地图的成本，Maplite 2.0率先将SD地图引入局部地图感知任务。MapEX通过将现有地图元素转换为不可学习的查询并与可学习的查询结合进行训练和预测，解决了现有地图信息不完整或不准确的情况。SMERF和P-MapNet结合了SD地图的特征表示与相机输入特征，使用多头交叉注意力机制，使车道拓扑推断更加有效。

为了实现视觉BEV特征与SD地图语义信息的有效融合，BLOS-BEV探索了各种特征融合方法。此外，诸如PriorLane、FlexMap、Bayesian、TopoLogic、LGMap、MapVision、RoadPainter和EORN等方法将SD地图先验整合到局部地图构建中，这一趋势正在逐渐获得关注。在融合之前，需要进行视角转换。本节的重点是将从2D相机传感器图像（通常称为透视视图（PV））中提取的特征信息转换为BEV特征。局部地图感知任务通常将地面视为一个平面，在鸟瞰视角中建立地图，因为一方面，BEV有助于多传感器信息的融合，而现有的先进BEV目标检测工作可以提供良好的基础。从PV到BEV的转换方法包括基于几何的方法和基于网络的方法。基于几何的方法可以分为同构变换和深度估计两种类型。基于网络的方法可以分为基于MLP的方法和基于Transformer的方法。基于Transformer的PV到BEV转换通常可以直接通过BEV感知模型实现。图4中的MapTR提出了一个基于BEVFormer中的View Transformer模块的优化GTK模块。

对齐

由于GPS信号的固有误差和车辆运动的影响，矢量化和栅格化的SD地图先验与当前的BEV空间不可避免地存在空间错位，难以完全对齐。因此，在融合之前，有必要将SD地图先验与当前的BEV操作空间进行空间对齐。FlexMap使用SLAM轨迹和修正后的RTK轨迹来计算偏移量并实现空间对齐。为了解决这个问题，PriorMap设置了一个KEA（知识嵌入对齐）模块，将SD地图先验知识嵌入并与图像特征在空间上对齐。具体来说，首先使用特征提取网络从图像中提取特征点，并从SD地图先验知识中提取特征点。

随后，使用基于注意力机制的对齐算法对这些特征点进行空间匹配。最后，通过融合Transformer网络进一步处理对齐的特征点，增强了局部地图感知算法的准确性和鲁棒性。类似地，P-MapNet首先对栅格化的SD地图先验进行下采样，然后引入多头交叉注意力模块，使网络能够使用交叉注意力来确定最合适的对齐位置，从而使用SD地图先验有效增强BEV特征。如图5所示，P-MapNet的消融实验表明，即使在与BEV空间对齐较弱的情况下，直接连接SD地图先验信息仍能提高模型性能。在此基础上，增加CNN模块和多头交叉注意力模块可以进一步提高模型性能。这证明了SD地图先验信息在局部地图感知任务中的重要作用，即使没有严格对齐，简单地增加栅格化的SD地图先验也可以提高模型性能。

融合

在获得多传感器数据特征表示之后，需要进行融合处理，以获得更强的特征表示。

为了对齐不同传感器的特征，有必要在BEV级别的特征上实现融合。图像BEV特征通过视角转换模块从周围图像中获得。在SMERF中，SD地图特征通过交叉注意力机制与BEV特征进行交互。首先，BEV特征被编码为查询向量，并通过自注意力机制进行初始化。给定场景的SD地图，LGMap如图6所示沿着每条多段线均匀采样固定数量的点。在正弦嵌入的情况下，BEVFormer在每个编码器层上将SD地图特征表示与来自视觉输入的特征应用交叉注意力。SD地图特征被编码为key和value向量，然后通过交叉注意力计算，获得最终融合的相机和SD地图的BEV特征。

除了常见的注意力机制融合方法外，BLOS-BEV如图7所示，探索了不同的融合方案，将视觉BEV特征与SD地图语义结合，以实现最佳表示和性能，探索了三种SD地图融合技术：加法、串联和交叉注意力。尽管所有融合方法的性能都优于不使用SD地图的方法，但在nuScenes和Argorse数据集上，SD地图的交叉注意力融合表现最佳，表现出出色的泛化性能和在长距离（150-200米）上的出色表现。

在P-mapnet中，已添加点云信息，并对激光雷达点云进行了体素化和MLP处理，以获得每个点的特征表示，从而得到Lidar BEV。图像BEV与Lidar BEV的融合用于获得进一步融合的BEV特征。对融合后的BEV特征进一步卷积下采样可以缓解图像BEV特征与LiDAR BEV特征之间的对齐问题。

通过交叉注意力机制，SD地图的良好特征与融合后的BEV特征进行交互，最终融合了相机和激光雷达点云的BEV特征。类似地，MapVision和MapEX如图8和图9所示，将SD地图特征用作键和值，而从多视角图像形成的特征图则用作查询，以执行交叉注意力。

为了解决遮挡和有限感知范围等问题可能导致的不准确性，RoadPainter提出了一种新颖的SD地图交互模块，图10显示了该模块通过结合视觉范围之外的信息有效增强BEV特征。EORN如图11所示，将SD地图栅格化并生成BEV中的SD地图。基于ResNet-18的SD编码器提取SD地图特征。然后，将SD地图特征插值并与来自图像BEV的BEV特征沿通道维度连接。融合方法使用了一个简单的两层卷积神经网络ConvFuser，它融合了连接的特征并输出融合后的BEV特征。另一种方法涉及图形编码器，将SD地图图形与BEV特征融合，并结合使用多头注意力机制的中心线可变形解码器的输出。随后的解码器可以通过从包含丰富信息的BEV特征中查询，计算并输出不同任务的相应结果。

结论与讨论

挑战与未来展望

SD地图编码和处理方法的改进适当的编码和处理方法对于在局部地图感知任务中利用SD地图先验信息至关重要。目前的研究采用了相对简单的编码和处理方法，无论是使用栅格还是矢量表示。未来的研究可以探索更高效的编码和特征提取方法。
SD地图先验信息与BEV空间对齐的改进由于GPS传感器的精度限制，将SD地图先验信息与当前BEV操作空间完美对齐具有挑战性。这种空间错位可能会在一定程度上影响模型的检测精度。改进空间对齐方法可以进一步提高模型性能。未来的研究可以考虑整合时间信息，以提高SD地图先验信息与BEV空间之间的对齐精度。
道路拓扑关系的推断局部地图中的拓扑关系可以分为两个分支：道路之间的拓扑关系（主要表示道路连通性）和道路与交通标志之间的拓扑关系（包括交通控制信号和其他方向标志）。增强对道路环境的场景理解对于高级自动驾驶任务至关重要。OpenLane-v2数据集是首个提供道路之间以及道路与交通标志之间拓扑关系的公共数据集。目前在这一领域的研究仍然有限。未来的工作可以使用图神经网络模型对道路网络的拓扑结构和交通标志的场景理解任务进行建模。
整合更多SD地图先验信息现有研究已证明，整合更多的道路类型信息可以增强模型性能。然而，除了基本的道路网络位置和道路类型，SD地图还可以提供更丰富的先验信息。例如，OpenStreetMap提供了诸如车道数量、车道方向和道路拓扑关系等额外信息。未来的研究可以尝试将这些多样的信息整合为SD地图先验，以进一步增强局部地图感知模型的鲁棒性和准确性。

结论

本文回顾了使用SD地图进行局部地图构建的文献，突出显示了SD地图在这一任务中的关键作用。介绍了使用SD地图进行局部地图构建的定义和核心方面，展示了其在开发准确和可靠地图中的重要性。列举了常用的公共数据集及其相应的评估指标。

总结了领先技术方法的主要流程，重点关注了来自不同传感器（如激光雷达、相机和雷达）数据的表示和编码方法。探索了多源传感器数据集成的先进融合技术及其各自的优缺点。

讨论了局部地图构建模型的评估前景和设计趋势，包括解决新兴挑战，例如改进SD地图与BEV视角的对齐和增强编码及处理方法。考虑了整合详细SD地图先验信息以建模道路拓扑关系的潜力，旨在提高场景理解能力并支持高级自动驾驶任务。