本文经自动驾驶之心公众号授权转载,转载请联系出处。
论文思路:
理解道路几何结构是自动驾驶车辆(AV)技术堆栈中的关键组成部分。尽管高精(HD)地图可以轻松提供此类信息,但它们存在高标注和维护成本。因此,许多最新的研究提出了从传感器数据中在线估计高精地图的方法。绝大多数的最新方法将多相机观测结果编码成中间表示,例如 BEV 网格,并通过解码器生成矢量地图元素。尽管这种架构性能优越,但它会消耗掉中间表示中编码的大量信息,阻碍下游任务(例如行为预测)利用这些信息。在这项工作中,本文提出了显露在线地图估计方法的丰富内部特征,并展示了它们如何更紧密地将在线地图构建与轨迹预测相结合。通过这样做,本文发现直接访问内部BEV特征可以使推理速度提高多达73%,并使在真实世界nuScenes数据集上的预测准确性提高多达29%。
论文设计:
感知自动驾驶车辆(AV)周围的静态环境是自动驾驶中的关键任务,它为下游的行为预测和运动规划模块提供几何信息(例如,道路布局)。传统上,高精(HD)地图一直是理解这些信息的基础,提供厘米级的道路边界、车道分隔线、车道中心线、人行横道、交通标志、道路标记等几何数据。它们在增强AV情境感知和下游预测任务中的导航判断方面起到了不可或缺的作用。然而,尽管HD地图的实用性不容否认,收集和维护这些地图却是劳动密集型且成本高昂的,这限制了它们的可扩展性。
近年来,在线高精(HD)地图估计方法作为一种替代方案出现,旨在直接从传感器观测中预测HD地图信息。以(多)相机图像和可选的LiDAR点云为起点,最先进的HD地图估计方法通常采用编码器-解码器神经网络架构(如图1所示)。编码器首先将传感器观测转换为 BEV 特征网格。然后,解码器从BEV特征中预测地图元素的位置和语义类型。生成的道路几何结构通常按地图元素类型(例如,道路边界、车道分隔线、人行横道)以多段线和多边形的组合形式构建。这些在线估计的地图作为离线HD地图的实用替代品,为下游任务(如行为预测和运动规划)提供必要的场景上下文。例如,最近的研究[13]展示了将各种地图估计方法与现有预测框架相结合的成功,突显了它们在加速端到端自动驾驶技术堆栈开发中的潜力。
虽然这种编码器-解码器方法能够生成准确的高精(HD)地图,但正如本文将在第4节中展示的那样,解码过程中使用的注意力机制计算成本高(占据了模型运行时间的大部分),并且不会生成带有相关不确定性的输出,这限制了下游模块处理不确定性的能力。此外,这种架构阻止了下游任务利用编码器在透视视角到鸟瞰视角(PV2BEV)转换过程中生成的丰富中间特征,导致无法描述为点集的信息被消耗掉。
为此,本文引入了三种新颖的场景编码策略,这些策略利用内部 BEV 特征来提升性能并加速在线地图构建和行为预测系统的运行时间。通过直接利用BEV特征,本文提出的方法在地图估计和行为预测框架之间实现了更紧密的集成,在真实世界的nuScenes数据集上,系统推理速度提高了多达73%,下游预测准确性提高了多达29%。
如第2节所述,绝大多数最先进的在线矢量化地图估计模型在内部采用 BEV 网格,以几何保持的方式对周围环境进行特征化。本文的方法侧重于通过直接访问这些内部BEV表示来进行轨迹预测。通过这样做,本文改善了从地图构建到预测的信息流动,甚至可以通过完全跳过地图解码来加速整个系统的运行时间(取决于预测器对车道信息的需求)。
图1:在线地图估计方法主要将多相机观测结果编码为标准的 BEV 特征网格,然后再解码为矢量化的地图元素。在这项工作中,本文提出通过直接访问在线地图估计方法的丰富BEV特征,将在线地图构建与下游任务深度集成。
图2:将BEV特征融入行为预测的三种不同策略。左:局部区域注意力编码代理与地图的交互;中:用BEV特征增强车道顶点;右:用时间序列BEV特征替换代理轨迹。
实验结果:
图3:本文的集成BEV预测方法在所有场景规模(代理数量和地图元素数量)和地图模型上运行速度都比解耦基线方法更快。
图4:使用第3.1节中的策略结合StreamMapNet [37]和HiVT [40]。通过用时间序列BEV特征替换车道信息,HiVT能够使其预测轨迹保持在当前车道上,与GT轨迹紧密对齐。
图5:使用第3.2节中的策略结合MapTR [22]和DenseTNT [12]。本文通过用BEV特征增强地图顶点,使DenseTNT能够生成非常准确的轨迹,避免了在基线和增强不确定性[13]设置中出现的道路边界入侵问题。
图6:使用第3.3节中的策略结合StreamMapNet [37]和DenseTNT [12]。通过用BEV特征替换代理轨迹信息,DenseTNT能够预测出在斑马线前停下的轨迹,相比于基线和增强不确定性[13]方法中的预测不足和过度问题。
表1:在nuScenes [1]数据集上,几乎每种地图构建和预测的组合都能从直接利用上游BEV特征中受益,某些组合的性能提升甚至达到25%或更多。百分比值表示本文的方法在预测性能上所实现的相对提升。
表2:对BEV patch 大小的探索表明, patch 过小(信息捕获不足)或过大(细粒度信息丢失)都会带来不利影响,最佳性能是在 patch 大小为20×20(对应于现实世界中的6米×6米)时实现的。
总结:
在这项工作中,本文提出了三种不同的策略,以在下游任务(如行为预测)中利用在线地图估计模型中的中间BEV特征。本文系统地评估了不同BEV编码策略的优势,并展示了在下游行为预测中融入BEV特征如何显著提升性能和运行时间。具体而言,结合各种在线地图构建和预测方法,在直接使用中间BEV特征时,实现了推理时间快达73%,并且在多种评估指标上预测准确性提高了多达29%。