无图NOA：一场对高精地图的祛魅！2024在线高精地图方案的回顾与展望-51CTO.COM

写在前面 & 笔者的个人理解

自VectorMapNet以来，无图/轻图的智能驾驶方案开始出现在自动驾驶量产的牌桌上，到如今也有两年多的时间。而『无图NOA』真正开始爆火的节点当属MapTR算法的提出，原来矢量化地图还能这么学习，以前分割的方案开始退出自动驾驶舞台，各家开始真正投入主力量产无图/轻图方案。

首先需要明确一点，无图方案不是完全摒弃高精地图，下游轨迹预测/规控仍然依赖高精地图的输入。『无图』实际指的是不再依赖厂商提供的高精地图，转而使用车载算法实时感知的『局部在线高精地图』。

因此无图方案的核心在于实时在线地图构建的准确性，从技术层面来讲，正常情况下无图的上限就是有图；而在传统高精地图更新不及时的区域（比如施工路段、道路重构路段等），无图方案是更有优势的。在线高精地图的发展也有两年多了，无图一直致力于从『能用』走向『好用』。今天自动驾驶之心就带大家盘点一下2024年在线高精地图的主流前沿算法，一探研究趋势，并在文末进行总结。

相关工作

Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping

论文链接：https://arxiv.org/abs/2409.05352v1

阿里巴巴和西交团队的工作：高精地图（HD地图）对于自动驾驶汽车的精确导航和决策至关重要，但其创建和维护带来了巨大的成本和及时性挑战。使用车载传感器在线构建高精地图已成为一种有前景的解决方案；然而，由于遮挡和恶劣天气，这些方法可能会受到不完整数据的阻碍。本文提出了PriorDrive框架，通过利用先验地图的力量来解决这些局限性，显著提高了在线高精地图构建的鲁棒性和准确性。我们的方法整合了各种先前的地图，如OpenStreetMap的标准定义地图（SD地图）、供应商过时的高精地图以及来自历史车辆数据的本地构建地图。为了将这些先验信息有效地编码到在线见图模型中，PriorDrive提出了一种混合先验表示（HPQuery），该表示对不同地图元素的表示进行了标准化。PriorDrive的核心是统一矢量编码器（UVE），它采用双编码机制来处理矢量数据。矢量内编码器捕获细粒度的局部特征，而矢量间编码器集成全局上下文。此外提出了一种segment-level和point-level的预训练策略，使UVE能够学习矢量数据的先验分布，从而提高编码器的泛化能力和性能。通过对nuScenes数据集的广泛测试，PriorDrive与各种在线地图模型高度兼容，并大大提高了地图预测能力。通过PriorDrive框架整合先前的地图，为单一感知数据的挑战提供了一个强大的解决方案，为更可靠的自动驾驶汽车导航铺平了道路。

Neural HD Map Generation from Multiple Vectorized Tiles Locally Produced by Autonomous Vehicles

论文链接：https://arxiv.org/abs/2409.03445v1

高精地图厂商四维图新的工作：高精地图是自动驾驶系统的基本组成部分，因为它可以提供有关驾驶场景的精确环境信息。最近关于矢量化地图生成的工作，车辆运行一次只能在自车周围生成65%的局部地图元素，这就留下了一个难题，即如何在高质量标准下构建投影在世界坐标系中的全局高精地图。为了解决这个问题，我们将GNMap作为一个端到端的生成神经网络来自动构建具有多个矢量化图块的高精地图，这些图块是由自动驾驶汽车通过多次旅行在本地生成的。它利用多层和基于注意力的自动编码器作为共享网络，其中的参数是从两个不同的任务（即分别进行预训练和微调）中学习的，以确保生成的映射的完整性和元素类别的正确性。对真实世界的数据集进行了大量的定性评估，实验结果表明，GNMap可以超过SOTA方法5%以上的F1分数，只需少量手动修改即可达到工业使用水平。我们已经在有限公司Navinfo公司部署了它，作为自动构建自动驾驶系统高精地图的不可或缺的软件。

Enhancing Vectorized Map Perception with Historical Rasterized Maps（ECCV2024）

论文链接：https://arxiv.org/abs/2409.00620v1
开源链接：https://github.com/HXMap/HRMapNet

无图NOA以来，研究人员focus在端到端的在线矢量地图构建上，该技术在鸟瞰图（BEV）空间中实现，希望能够替代传统成本较高的离线高精（HD）地图。但是当前方法在恶劣环境下的准确性和鲁棒性很容易受限。为此本文提出了HRMapNet，其利用低成本的历史光栅化地图来增强在线矢量化地图的感知能力。历史光栅化地图来源于先前预测的结果，因此可以提供当前帧一定的先验信息。为了充分利用历史地图，作者设计了两个模块来增强BEV特征和地图元素的查询。对于BEV特征，本文设计了特征聚合模块，以编码图像和历史地图的特征。对于地图元素的查询，则设计了一个查询初始化模块，以赋予查询从历史地图中得到的先验信息。这两个模块对于在在线感知中利用地图信息至关重要。HRMapNet能够与大多数现有的在线矢量化地图感知方法集成。问鼎nuScenes和Argoverse 2 SOTA。

Online Temporal Fusion for Vectorized Map Construction in Mapless Autonomous Driving

论文链接：https://arxiv.org/abs/2409.00593v1

为了减少对高精（HD）地图的依赖，自动驾驶的一个日益增长的趋势是利用车载传感器在线生成矢量化地图。然而目前的方法大多受到仅处理单帧输入的限制，这阻碍了它们在复杂场景中的鲁棒性和有效性。为了克服这个问题，我们提出了一种在线地图构建系统，该系统利用长期的时间信息来构建一致的矢量化地图。首先，该系统有效地将来自现成网络的所有历史道路标记检测融合到语义体素图中，该图使用基于哈希的策略来实现，以利用道路元素的稀疏性。然后通过检查融合信息找到可靠的体素，并逐步聚类到道路标记的实例级表示中。最后，该系统结合领域知识来估计道路的几何和拓扑结构，这些结构可以直接由规划和控制（PnC）模块使用。通过在复杂的城市环境中进行的实验，我们证明了我们系统的输出比网络输出更一致、更准确，并且可以有效地用于闭环自动驾驶系统。

PriorMapNet: Enhancing Online Vectorized HD Map Construction with Priors

论文链接：https://arxiv.org/abs/2408.08802v2

北理工和元戎启行团队的工作：在线矢量化高精地图构建对于自动驾驶中的后续预测和规划任务至关重要。遵循MapTR范式，最近的工作取得了值得注意的成就。然而在主流方法中，参考点是随机初始化的，导致预测和GT之间的匹配不稳定。为了解决这个问题，我们引入了PriorMapNet来增强在线矢量化高精地图的构建。我们提出了PPS解码器，它为参考点提供了位置和结构先验。根据数据集中的地图元素进行拟合，先验参考点降低了学习难度，实现了稳定的匹配。此外，我们提出了PF编码器，利用BEV特征先验来增强图像到BEV的转换。此外，我们提出了DMD交叉注意，它分别沿多尺度和多样本解耦交叉注意，以实现效率。我们提出的PriorMapNet在nuScenes和Argoverse2数据集上的在线矢量化高精地图构建任务中实现了最先进的性能。

Enhancing Online Road Network Perception and Reasoning with Standard Definition Maps

论文链接：https://arxiv.org/abs/2408.01471v1
项目主页：https://henryzhangzhy.github.io/sdhdmap/

用于城市和高速公路驾驶应用的自动驾驶通常需要高精（HD）地图来生成导航。然而在按比例生成和维护高精地图时，会出现各种挑战。虽然最近的在线建图方法已经开始出现，但其在于大范围感知时的性能受到动态环境中严重遮挡的限制。考虑到这些因素，本文旨在在开发在线矢量化高精地图表示时利用轻量级和可扩展的先验标准清晰度（SD）地图。我们首先研究了将原型光栅化SD地图表示集成到各种在线地图架构中。此外，为了确定轻量级策略，我们使用OpenStreetMaps扩展了OpenLane-V2数据集，并评估了图形SD地图表示的好处。设计SD地图集成组件的一个关键发现是，SD地图编码器与模型无关，可以快速适应利用鸟瞰图（BEV）编码器的新架构。我们的结果表明，使用SD图作为在线映射任务的先验可以显著加快收敛速度，并将在线中心线感知任务的性能提高30%（mAP）。此外，我们表明，引入SD图可以通过利用SD图来减少感知和推理任务中的参数数量，同时提高整体性能。

PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2407.17378v1

时间信息对于检测被遮挡的实例至关重要。现有的时间表示已经从BEV或PV特征发展到更紧凑的查询特征。与上述特征相比，预测提供了最高级别的抽象，提供了明确的信息。在在线矢量化高精地图构建的背景下，这种独特的预测特性可能有利于长时间建模和地图先验的整合。本文介绍了PrevPredMap，这是一个开创性的时间建模框架，利用之前的预测构建在线矢量化高精地图。我们为PrevPredMap精心设计了两个基本模块：之前的基于预测的查询生成器和动态位置查询解码器。具体而言，基于先前预测的查询生成器被设计为对来自先前预测的不同类型的信息进行单独编码，然后由动态位置查询解码器有效地利用这些信息来生成当前预测。此外，我们还开发了一种双模策略，以确保PrevPredMap在单帧和时间模式下的稳健性能。大量实验表明，PrevPredMap在nuScenes和Argoverse2数据集上实现了最先进的性能。

Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks

论文链接：https://arxiv.org/abs/2407.13517v2
代码链接：https://github.com/SehwanChoi0307/Mask2Map

汉阳大学的工作：本文介绍了Mask2Map，这是一种专为自动驾驶应用设计的端到端在线高精地图构建方法。我们的方法侧重于预测场景中以鸟瞰图（BEV）表示的地图实例的类和有序点集。Mask2Map由两个主要组件组成：实例级掩码预测网络（IMPNet）和掩码驱动映射预测网络（MMPNet）。IMPNet生成掩码感知查询和BEV分割掩码，以在全局范围内捕获全面的语义信息。随后，MMPNet通过两个子模块使用本地上下文信息增强了这些查询功能：位置查询生成器（PQG）和几何特征提取器（GFE）。PQG通过将边界元位置信息嵌入到掩码感知查询中来提取实例级位置查询，而GFE则利用边界元分割掩码来生成点级几何特征。然而，我们观察到Mask2Map的性能有限，这是由于IMPNet和MMPNet之间对GT匹配的不同预测导致的网络间不一致。为了应对这一挑战，我们提出了网络间去噪训练方法，该方法指导模型对受噪声GT查询和扰动GT分割掩码影响的输出进行去噪。我们对nuScenes和Argoverse2基准进行的评估表明，Mask2Map比以前最先进的方法实现了显著的性能改进，分别提高了10.1%mAP和4.1 mAP。

MapDistill: Boosting Efficient Camera-based HD Map Construction via Camera-LiDAR Fusion Model Distillation（ECCV 2024）

论文链接：https://arxiv.org/abs/2407.11682v1

三星研究院的工作：在线高精地图构建是自动驾驶领域一项重要而具有挑战性的任务。最近研究人员对基于成本效益高的环视相机的方法越来越感兴趣，而不依赖于激光雷达等其他传感器。然而，这些方法缺乏明确的深度信息，需要使用大型模型来实现令人满意的性能。为了解决这个问题，我们首次采用知识蒸馏（KD）思想进行高效的高精地图构建，并引入了一种名为MapDistill的基于知识蒸馏的新方法，将知识从高性能相机LiDAR融合模型转移到仅使用相机的轻量模型。具体而言，我们采用师生架构，即以摄像头LiDAR融合模型为教师，以轻量级摄像头模型为学生，并设计了一个双BEV转换模块，以促进跨模式知识提取，同时保持仅使用摄像头的成本效益部署。此外，我们提出了一种全面的蒸馏方案，包括跨模态关系蒸馏、双层特征蒸馏和映射头蒸馏。这种方法缓解了模式之间的知识转移挑战，使学生模型能够学习改进的特征表示，用于HD地图构建。在具有挑战性的nuScenes数据集上的实验结果证明了MapDistill的有效性，性能提升7.7 mAP或速度提升4.5倍。

Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention（ECCV 2024）

论文链接：https://arxiv.org/abs/2407.06683v1

多伦多大学&英伟达等团队的工作：了解道路几何形状是自动驾驶汽车（AV）堆栈的关键组成部分。虽然高精（HD）地图可以很容易地提供此类信息，但它们的标签和维护成本很高。因此，许多最近的工作提出了从传感器数据在线估计HD地图的方法。最近的绝大多数方法将多相机观测值编码为中间表示，例如鸟瞰图（BEV）网格，并通过解码器生成矢量地图元素。虽然这种架构是高性能的，但它会大量抽取中间表示中编码的信息，从而阻止下游任务（例如行为预测）利用它们。在这项工作中，我们建议揭示在线地图估计方法的丰富内部特征，并展示它们如何将在线地图与轨迹预测更紧密地结合起来。通过这样做，我们发现直接访问内部BEV特征可以使推理速度提高73%，对真实世界nuScenes数据集的预测准确率提高29%。

Is Your HD Map Constructor Reliable under Sensor Corruptions?

论文链接：https://arxiv.org/abs/2406.12214v2
项目链接：https://mapbench.github.io/

三星研究院&悉尼大学等团队的工作：驾驶系统通常依赖高精（HD）地图获取精确的环境信息，这对规划和导航至关重要。虽然目前的高精地图构建器在理想条件下表现良好，但它们对现实世界挑战的弹性，例如恶劣天气和传感器故障，还没有得到很好的理解，这引发了安全问题。这项工作介绍了MapBench，这是第一个旨在评估HD地图构建方法对各种传感器损坏的鲁棒性的综合基准。我们的基准测试共包括29种由摄像头和激光雷达传感器引起的损坏。对31个HD地图构建器的广泛评估显示，在恶劣天气条件和传感器故障下，现有方法的性能显著下降，突显了关键的安全问题。我们确定了增强鲁棒性的有效策略，包括利用多模态融合、先进数据增强和架构技术的创新方法。这些见解为开发更可靠的高精地图构建方法提供了途径，这对自动驾驶技术的进步至关重要。

MapVision: CVPR 2024 Autonomous Grand Challenge Mapless Driving Tech Report

论文链接：https://arxiv.org/abs/2406.10125v1

滴滴&北邮团队在CVPR 2024挑战赛上的工作：没有高精（HD）地图的自动驾驶需要更高水平的主动场景理解。在本次比赛中，组织者提供了多视角相机图像和标清（SD）地图，以探索场景推理能力的边界。我们发现，大多数现有的算法都是从这些多视角图像中构建鸟瞰图（BEV）特征，并使用多任务头来描绘道路中心线、边界线、人行横道和其他区域。然而，这些算法在道路的远端表现不佳，当图像中的主要对象被遮挡时，它们会遇到困难。因此，在这场比赛中，我们不仅使用多视角图像作为输入，还结合了SD地图来解决这个问题。我们采用地图编码器预训练来增强网络的几何编码能力，并利用YOLOX来提高交通要素检测精度。此外，对于区域检测，我们创新性地引入了LDTR和辅助任务，以实现更高的精度。因此，我们的OLUS最终得分为0.58。

DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2405.05518v2
代码链接：https://github.com/lynn-yu/DTCLMapper

时间信息在鸟瞰图（BEV）感知场景理解中起着关键作用，可以缓解视觉信息的稀疏性。然而，在构建矢量化高精晰度（HD）地图时，不加选择的时间融合方法会导致特征冗余的障碍。本文重新审视了矢量化HD地图的时间融合，重点研究了时间实例一致性和时间地图一致性学习。为了改进单帧映射中实例的表示，我们引入了一种新方法DTCLMapper。该方法使用双流时间一致性学习模块，该模块将实例嵌入与几何图相结合。在实例嵌入组件中，我们的方法集成了时态实例一致性学习（ICL），确保向量点和从点聚合的实例特征的一致性。采用矢量化点预选模块来提高每个实例中矢量点的回归效率。然后，从矢量化点预选模块获得的聚合实例特征基于对比学习来实现时间一致性，其中基于位置和语义信息选择正样本和负样本。几何映射组件引入了使用自监督学习设计的映射一致性学习（MCL）。MCL通过关注实例的全局位置和分布约束来增强我们一致学习方法的泛化能力。在公认的基准上进行的广泛实验表明，所提出的DTCLMapper在矢量化映射任务中达到了最先进的性能，在nuScenes和Argoverse数据集上分别达到了61.9%和65.1%的mAP得分。

HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2404.11155v1

港中文团队的工作：近年来，利用全景相机构建矢量化高精地图引起了人们的广泛关注。然而，主流方法中常用的多阶段顺序工作流往往会导致早期信息的丢失，特别是在透视图特征中。通常，在最终的鸟瞰预测中，这种损失被视为实例缺失或形状不匹配。为了解决这个问题，我们提出了一种新的方法，即HybriMap，它有效地利用混合特征的线索来确保有价值的信息的传递。具体来说，我们设计了双增强模块，以便在混合特征的指导下实现显式集成和隐式修改。此外，透视关键点被用作监督，进一步指导特征增强过程。在现有基准上进行的广泛实验证明了我们提出的方法的最先进性能。

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction（CVPR 2024）

论文链接：https://arxiv.org/abs/2404.00876v1
代码链接：https://github.com/xiaolul2/MGMap

浙大和有鹿的工作：目前高精晰度（HD）地图构建倾向于轻量级的在线生成趋势，旨在保存及时可靠的道路场景信息。然而地图元素包含强大的形状先验。一些奇形怪状的标注使当前基于检测的框架在定位相关特征范围方面模糊不清，并导致预测中详细结构的丢失。为了缓解这些问题，我们提出了MGMap，这是一种掩模引导的方法，可以有效地突出信息区域，并通过引入学习到的掩模来实现精确的地图元素定位。具体来说，MGMap从两个角度采用了基于增强的多尺度边界元法特征的学习掩模。在实例级别，我们提出了掩码激活实例（MAI）解码器，该解码器通过激活实例掩码将全局实例和结构信息合并到实例查询中。在点级别，设计了一种新的位置引导掩模补丁细化（PG-MPR）模块，从更细粒度的角度细化点位置，从而能够提取特定于点的补丁信息。与基线相比，我们提出的MGMap在不同输入模式下实现了约10mAP的显著改善。大量实验还表明，我们的方法具有很强的鲁棒性和泛化能力。

MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

论文链接：https://arxiv.org/abs/2403.15951v1
项目主页：https://map-tracker.github.io/

Wayve等团队的工作：本文提出了一种矢量HD建图算法，该算法将地图表示为跟踪任务，并使用内存延迟历史来确保随时间推移的一致重建。我们的方法MapTracker将传感器流累积到两个潜在表示的存储缓冲区中：1）鸟瞰（BEV）空间中的光栅延迟，2）道路元素（即人行横道、车道分隔线和道路边界）上的矢量延迟。该方法借鉴了跟踪文献中的查询传播范式，该范式明确地将前一帧中的跟踪道路元素与当前帧相关联，同时融合了用距离步长选择的记忆延迟子集，以进一步增强时间一致性。对向量潜势进行解码以重建道路元素的几何形状。该论文还通过以下方式做出了基准贡献：1）改进现有数据集的处理代码，以通过时间对齐产生一致的地面实况，2）通过一致性检查增强现有的mAP度量。MapTracker在nuScenes和Agroverse2数据集上的表现明显优于现有方法，在传统和新的一致性感知指标上分别超过8%和19%。

HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2403.08639v2

三星团队的工作：矢量化高精（HD）地图构建需要预测地图元素（如道路边界、车道分隔线、人行横道等）的类别和点坐标。最先进的方法主要基于点级表示学习，用于回归精确的点坐标。然而该范式在获取元素级信息和处理元素级故障方面存在局限性，例如错误的元素形状或元素之间的纠缠。为了解决上述问题，我们提出了一个简单而有效的名为HIMap的HybrId框架，以充分学习和交互点级和元素级信息。具体来说，我们引入了一种名为HIQuery的混合表示来表示所有地图元素，并提出了一个点元素交互器来交互式地提取元素的混合信息，例如点位置和元素形状，并将其编码到HIQuery中。此外，我们提出了一个点元素一致性约束，以增强点级和元素级信息之间的一致性。最后，集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。我们进行了广泛的实验，并在nuScenes和Argoverse2数据集上始终优于以前的方法。值得注意的是，我们的方法在nuScenes数据集上实现了77.8 mAP，至少比之前的SOTA高出8.3 mAP。

EAN-MapNet: Efficient Vectorized HD Map Construction with Anchor Neighborhoods

论文链接：https://arxiv.org/abs/2402.18278v2

中山大学等团队的工作：高精（HD）地图对于自动驾驶系统至关重要。现有的大多数工作设计了基于DETR解码器的地图元素检测头。然而，初始查询缺乏对物理位置信息的明确结合，而普通的自注意力需要很高的计算复杂性。因此我们提出了EAN MapNet，用于使用锚点邻域高效构建高精地图。首先，我们基于锚点邻域设计查询单元，允许非邻域中心锚点有效地帮助将邻域中心锚点拟合到表示地图元素的目标点。然后利用查询之间的相对实例关系，提出了分组局部self-att（GL-SA）。这有助于同一实例的查询之间的直接特征交互，同时创新性地将本地查询用作不同实例查询之间交互的中介。因此，GL-SA显著降低了自注意力的计算复杂度，同时确保了查询之间有足够的特征交互。在nuScenes数据集上，EAN MapNet经过24个epoch的训练，达到了63.0 mAP的最新性能，比MapTR高出12.7 mAP。此外，与MapTRv2相比，它大大减少了8198M的内存消耗。

ADMap: Anti-disturbance framework for reconstructing online vectorized HD map（ECCV2024）

论文链接：https://arxiv.org/abs/2401.13172v2
开源链接：https://github.com/hht1996ok/ADMap

零跑&浙大等团队的工作：在自动驾驶领域，在线高精（HD）地图重建对于规划任务至关重要。最近的研究开发了几种高性能的高精地图重建模型来满足这一需求。然而，由于预测偏差，实例向量内的点序列可能会抖动或锯齿状，这可能会影响后续任务。因此，本文提出了抗干扰图重建框架（ADMap）。为了减轻点序抖动，该框架由三个模块组成：多尺度感知neck、实例交互注意力（IIA）和矢量方向差损失（VDDL）。通过以级联方式探索实例之间和实例内部的点序关系，该模型可以更有效地监控点序预测过程。ADMap在nuScenes和Argoverse2数据集上实现了最先进的性能。广泛的结果表明，它能够在复杂和不断变化的驾驶场景中生成稳定可靠的地图元素。

Stream Query Denoising for Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2401.09112v2

中科大&旷视团队的工作：为了提高自动驾驶领域复杂和广泛场景中的感知性能，人们对时间建模给予了特别关注，特别强调了流式方法。流模型的主流趋势涉及利用流查询来传播时间信息。尽管这种方法很流行，但将流式范式直接应用于构建矢量化高精地图（HD地图）并不能充分利用时间信息的内在潜力。本文介绍了流查询去噪（SQD）策略，这是一种在高精地图（HD map）构建中进行时间建模的新方法。SQD旨在促进流模型中映射元素之间时间一致性的学习。该方法涉及对因在前一帧的GT中添加噪声而受到干扰的查询进行去噪。该去噪过程旨在重建当前帧的地面真实信息，从而模拟流查询中固有的预测过程。SQD策略可以应用于这些流式方法（例如StreamMapNet），以增强时间建模。拟议的SQD MapNet是配备SQD的StreamMapNet。在nuScenes和Argoverse2上的大量实验表明，我们的方法在近距离和远距离的所有设置中都明显优于其他现有方法。

MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction

论文链接：https://arxiv.org/abs/2401.07323v1

独立研究作者：高精（HD）地图是自动驾驶导航的关键。将运行时轻量级高精地图构建的能力集成到自动驾驶系统中最近成为一个有前景的方向。在这种激增中，视觉感知脱颖而出，因为相机设备仍然可以感知立体信息，更不用说其便携性和经济性的吸引人的特征了。最新的MapTR架构以端到端的方式解决了在线高精地图构建任务，但其潜力仍有待探索。在这项工作中，我们提出了MapTR的全面升级，并提出了下一代高精地图学习架构MapNeXt，从模型训练和缩放的角度做出了重大贡献。在深入了解MapTR的训练动态并充分利用地图元素的监督后，MapNeXt Tiny在不进行任何架构修改的情况下，将MapTR Tiny的map从49.0%提高到54.8%。MapNeXt Base享受着地图分割预训练的成果，将map进一步提高到63.9%，已经比现有技术多模态MapTR提高了1.4%，同时速度提高了1.8倍。为了将性能边界推向下一个水平，我们在实际模型缩放方面得出了两个结论：增加的查询有利于更大的解码器网络进行充分的消化；一个大的主干稳定地提高了最终的准确性，没有花哨的东西。基于这两条经验法则，MapNeXt Huge在具有挑战性的nuScenes基准测试中取得了最先进的性能。具体来说，我们首次将无地图视觉单模型性能提高到78%以上，比现有方法中的最佳模型高出16%。

总结与展望

从今年文章的情况来看，可以总结以下几点趋势：

前期工作主要是模型层面的改动：比如模型训练的优化方法、损失、新型注意力机制、Query、Encoder-Decoder的改进等等方式；
下半年的文章则聚焦在如何使用额外的信息提升模型性能：比如SD Map、历史地图等等，额外信息的引入能大幅提升模型性能，这块也是业内实际量产的前沿方向，值得更进一步挖局；
此外也有一些工作尝试进行蒸馏、研究模型的鲁棒性等，这块对量产的指导意义更强，期待后续有业务数据的反馈。

总结来说，目前在线高精地图是工业界和学术界主流的研究方向，从CVPR/ECCV等顶会也可以反应出这一趋势。模块化方法离不开在线高精地图，端到端更离不开在线地图。但反过来说，在线地图依赖传统高精地图的标注训练。可谓从群众中来，到群众中去。传统高精地图不会湮灭，仍然会在技术发展的洪流中发光发热。