本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面
BEV表示方法的进步在车载3D感知领域展现出了巨大的潜力。然而,尽管这些方法在标准基准测试中取得了令人瞩目的成果,但其在不同条件下的鲁棒性仍然没有得到充分的评估。本研究提出了RoboBEV,一个设计用于评估BEV算法鲁棒性的全面基准套件。该套件包含了多种相机损坏类型,每种类型都在三个严重程度级别上进行了考察。基准还考虑了使用多模态模型时发生的完整传感器故障的影响。通过RoboBEV评估了33个最先进的基于BEV的感知模型,这些模型涵盖了检测、地图分割、深度估计和占用预测等任务。分析揭示了模型在分布内数据集上的性能与其对分布外挑战的韧性之间的显著相关性。实验结果还强调了诸如预训练和无需深度的BEV转换等策略在增强对分布外数据的鲁棒性方面的有效性。此外观察到,利用广泛的时间信息可以显著提高模型的鲁棒性。基于观察,设计了一种基于CLIP模型的有效鲁棒性增强策略。本研究的见解为未来BEV模型的发展铺平了道路,这些模型将无缝结合准确性与现实世界中的鲁棒性。
基于深度神经网络的3D感知方法已经取得了革命性的突破,在一系列要求严格的基准测试中表现出色。其中,以相机为中心的方法在受欢迎程度上已经超越了基于激光雷达的方法,这主要是因为前者具有一些优势,如降低了部署成本、提高了计算效率,以及能够提供密集的语义洞察。这些进步的核心在于鸟瞰视角(BEV)表示,它提供了三大显著优势:
- 它促进了从多视图图像中的统一学习;
- 它鼓励了一种在物理上可解释的方法,用于跨时间实例融合信息;
- 其输出域与多个下游应用(如预测和规划)无缝对齐,这强化了以视觉为中心的3D感知框架的性能指标;
然而,这种BEV感知方法论的繁荣景象并非没有挑战。尽管这些算法具有明显的优势,但它们在面对不符合情境或未预见到的场景时的鲁棒性仍然缺乏足够的考察。这种疏忽尤其令人担忧,因为许多这些算法预计将在自动驾驶等安全关键领域运行。传统上,算法的鲁棒性可以分为对抗性鲁棒性它涉及最坏情况场景和分布偏移下的鲁棒性,后者考察平均情况下的性能,并在一定程度上反映了现实世界条件。
虽然3D感知模型的对抗性鲁棒性已经得到了研究,但本项工作旨在探索一个较少涉足的领域:以BEV为中心的3D感知系统在面临自然、通常不可预测的干扰时的鲁棒性。为了弥补现有的知识空白,这里提出了一个名为RoboBEV的全面基准测试。该基准测试评估了BEV感知在面对自然干扰时的鲁棒性,这些干扰包括外部环境、内部传感器和时间因素。外部环境包括各种光照和天气条件,这些条件通过融入亮度、暗度、雾和雪等干扰类型来模拟。此外,输入可能受到由传感器引起的内部因素的干扰,如运动模糊和颜色量化。我们还为基于BEV的时间融合策略提出了两种新颖的连续空间干扰,即camera崩溃和帧丢失。此外,还考虑了针对在多模态输入上训练的相机-激光雷达融合模型的完全传感器故障。该研究涉及对与真实世界自动驾驶应用高度相关的多样化非分布干扰设置的全面调查,图1总结了我们在基准测试中研究的多样化BEV感知任务和干扰类型。
借助提出的RoboBEV基准测试,这里对33个BEV感知模型在不同严重程度下的干扰进行了全面分析。最后,基于观察结果,提出了利用CLIP主干网络并将其适应于BEV感知任务,以提高模型的鲁棒性。主要贡献总结如下:
- 介绍了RoboBEV,一个全面的基准测试套件,用于评估在各种自然干扰下BEV感知的鲁棒性。
- 进行了大量实验,以评估30个基于camera的和3个基于camera-lidar融合的BEV感知算法的性能。这些算法在八种不同的干扰下进行了评估,每种干扰都在三个不同的严重程度下应用,共涉及四个感知任务。
- 研究通过深入分析导致干扰场景下鲁棒性的因素,提供了有价值的见解,为未来的模型设计提供了启示。主要观察结果是:i) 绝对性能与干扰下的性能有很强的相关性。然而,随着标准性能的提高,相对鲁棒性并不一定增加;ii) 模型预训练与无深度BEV转换相结合具有很大潜力来增强鲁棒性;iii) 利用长而丰富的时间信息在很大程度上增强了鲁棒性。
- 基于观察,提出了利用CLIP模型作为主干网络来进一步提高BEV感知模型的鲁棒性。
- 将数据集和基准测试工具包公开,旨在鼓励研究社区复制和扩展我们的发现。
BEV感知的一些基础回顾
1)Model Pre-Training
在过去的几年里,预训练已经在各种任务的计算机视觉模型中提高了性能。在基于camera的3D感知领域,使用FCOS3D权重初始化ResNet主干网络已成为标准做法。为了稳定训练过程,FCOS3D在微调过程中将深度权重从0.2调整到1。另一种普遍的方法是在DDAD15M数据集上训练VoVNet-V2主干网络,目标是深度估计,然后使用nuScenes训练集对其进行微调以进行检测。从语义上讲,这些预训练技术可以分为两类:语义预训练和深度预训练。此外,M-BEV引入了健壮的mask图像预训练技术,旨在增强在缺少传感器数据场景中模型的鲁棒性。
2)Temporal Fusion
自动驾驶的动态环境要求精确估计运动实体的速度,这对单一帧输入来说是一个挑战。这揭示了时间线索在增强视觉系统感知能力方面的重要性。先前的研究已经开创了各种方法来利用这些时间线索。例如,BEVFormer 集成历史数据并利用时间交叉注意力来从多时间戳图像中聚合BEV特征。同时,BEVDet4D 通过将来自多个帧的特征附加在一起来融入时间细微差别,而SOLOFusion 则通过合并广泛的历史数据来寻求更全面的时间建模。然而,这些复杂的时间模型在受损条件下的韧性仍然在很大程度上尚未得到探索。
3)Camera-LiDAR融合
BEV范式简化了来自各种输入模态的特征融合。虽然一些算法仅专注于从图像中构建BEV表示,但文献中相当一部分作品都主张采用统一的BEV空间。这有助于对齐从图像和点云中提取的特征。这里深入探讨了这类多模态融合算法的性能,特别是在图像受损但激光雷达机制仍保持良好状态的情况下。此外,还解决了一个常见场景,即模型使用多模态输入进行训练,但部署在仅装备有其中一种传感器的车辆上。为了评估鲁棒性,我们评估了模型在完全传感器故障条件下的性能,即缺失相机或激光雷达的情况。
4)BEV View Transformation
BEV转换领域的研究工作可以根据是否使用深度估计技术来划分。一派研究在其系统中嵌入了一个独立的深度估计分支。由于从图像预测3D框存在固有的挑战,这些模型首先预测每个像素的深度图。然后,这个深度图就像一个指南针,将图像特征引导到它们正确的3D坐标上。后续的BEV转换过程通常采用自下而上的方法。另一种,是那些利用预定义的目标查询或精简proposal以自上而下的方式整理2D特征的模型。虽然这两种范式在良性数据集上都展现出了它们的优势,但通过考察它们在受损数据上的有效性来进一步拓展视野。
Benchmark设计
1)数据生成
我们的主要提议是nuScenes-C基准数据集,它是通过在nuScenes数据集的验证集中引入损坏而创建的。我们的数据集包含了八种不同的损坏类型,模拟了外部环境因素、传感器引起的失真以及我们时间损坏所带来的挑战。将每种损坏类型分为三级强度:简单、中等和困难。这些严重程度级别确保了在存在挑战的同时,它们不会完全破坏性能,从而保持发现的相关性和完整性。此外,在每个严重程度级别内引入了变化,以确保多样性。基准包含866,736张图像,每张图像的分辨率为1600×900像素。这里还考虑了模拟相机-激光雷达融合算法中完全传感器失效的场景。在模拟相机缺失时,每个像素都被设置为零。为了模拟激光雷达读数的缺失,仅保留了[-45, 45]度前视场(FOV)内的数据点。这样的设计选择基于我们的观察,即当激光雷达读数完全缺失时,经过多模态训练的模型会遭受显著的性能下降。
2)自然失真
图1展示了损坏分类的视觉指南。大体上,专注于三种损坏类别。首先,通过亮度、暗度、雾和雪来模拟由外部环境动态引起的损坏,如光照变化或极端气象条件。考虑到大部分训练数据是在相对良性的条件下捕获的,在这些极端条件下测试模型至关重要。其次,传感器驱动的失真可能会损坏收集的图像。高速运动可能会产生模糊,或者内存保护策略可能会迫使图像进行量化。为了模仿这些现实世界中的挑战,整合了运动模糊和颜色量化。最后引入了相机故障,其中由于硬件问题,整个图像集或随机帧会被遗漏,这由创新性的相机崩溃和帧丢失损坏所捕捉。这些过程的图示在图1中进行了可视化。我们可视化了在合成图像上的像素直方图分析,如图2所示。一个显著的现象是,虽然运动模糊损坏引起的像素分布变化很小,但仍然导致了显著的性能下降。
3)鲁棒Metrics
遵循官方nuScenes指标在nuScenes-C数据集上计算鲁棒性指标。报告了nuScenes检测得分(NDS)和平均精度均值(mAP),以及平均平移误差(mATE)、平均尺度误差(mASE)、平均方向误差(mAOE)、平均速度误差(mAVE)和平均属性误差(mAAE)。
为了更好地比较不同BEV检测器的鲁棒性,基于NDS引入了两个新的指标。第一个指标是平均损坏误差(mCE),用于测量候选模型与基线模型相比的相对鲁棒性:
其中,i表示损坏类型,l表示严重级别;N表示基准中的损坏类型数量。应该注意的是,可以选择不同的基线模型。在这项工作中,选择了DETR3D作为基线模型,因为它提供了出色的BEV检测性能。为了比较nuScenes-C和标准nuScenes数据集之间的性能差异,定义了一个简单的平均恢复率(mRR)指标,该指标按以下方式在三个严重级别上计算:
Benchmark实现
1)Camera-Only Benchmark
对nuScenes-C数据集上的30个BEV模型进行了详尽的基准分析。调查主要结果汇总在表2中,分析结果显示,所有模型在损坏数据集上的性能都有所下降。
在检查nuScenes-C数据集及其“干净”对照数据集的绝对性能时,出现了一个明显的趋势。在标准数据集上表现出色的BEV检测器在面临分布外数据集时也往往能展现出值得称赞的性能,这一趋势在图3a中得到了直观体现。然而,更仔细地观察这些结果揭示了一个更复杂的情况。尽管检测器在“干净”数据集上表现平行,但在面对不同类型的损坏时却表现出不同的鲁棒性。例如,BEVerse(swin-s)在相机崩溃时表现出很强的韧性,而PETR(vov)在雪天条件下表现良好。然而,两者在黑暗环境中都表现不佳。
调查还进一步突出了不同损坏情况下韧性率的一个潜在弱点。尽管mCE指标在nuScenes和nuScenes-C数据集之间显示出线性相关性,但mRR指标揭示了具有可比基线性能的模型之间存在显著差异。这表明一些模型可能对nuScenes数据集存在过拟合现象,从而降低了它们对nuScenes-C数据集的适应性。例如,尽管Sparse4D在“干净”数据集上优于DETR3D,但在所有损坏类别的mRR指标上却表现不佳。此外,DETR3D在黑暗条件下表现出色,与BEVerse(swin-t)形成鲜明对比。尽管BEVerse(swin-t)在清洁条件下表现强劲,但在黑暗中仅实现了12%的相对性能。因此,对尖端模型进行全面评估对于完全评估它们的能力至关重要。
我们的研究还扩展到了相关任务,包括以BEV为中心的地图分割、深度估计和占用预测,相关结果如表4所示。遵循了[25]中的设置,报告了车辆地图视图分割结果的交并比(IoU)。对于深度估计,使用了绝对相对差异(Abs Rel)评分,而对于语义占用预测,使用了平均交并比(mIoU)。这些结果涵盖了多种感知任务,为BEV模型的能力和限制提供了丰富的视角。值得注意的是,许多以BEV为中心的感知模型在特定的损坏情况下(如黑暗和雪天)表现不佳。这揭示了BEV模型之间的一种共同弱点,降低了它们在现实场景中的可靠性。
2)Camera-LiDAR Fusion Benchmark
本文研究了camera受损而激光雷达正常工作的场景,这在现实世界中经常发生。例如,激光雷达点云捕获在很大程度上不受光照变化的影响,而camera捕获在光线不足的情况下可能会降低质量。这里故意排除了像雪和雾这样的条件,因为它们可能会对camera和激光雷达的读数引入噪声,这些研究的结果如表5所示。有趣的是,即使在camera数据受损的情况下,多模态融合模型也能保持高性能。当提供正常的激光雷达和受损的camera输入时,BEVFusion在大多数类型的camera损坏情况下(除了黑暗条件)都持续优于仅使用激光雷达的模型,具有显著更高的NDS评分0.6928。这证实了即使在camera数据不是最佳的情况下,使用激光雷达数据的有效性。
然而,在某些情况下,受损的camera输入会对模型的性能产生不利影响。例如,在camera崩溃和运动模糊等条件下,将camera特征纳入模型的益处微乎其微。此外,在存在黑暗损坏的情况下,受损的camera特征不仅无法提供有用信息,而且还会降低激光雷达特征的有效性,导致NDS评分从0.6928下降到0.6787。因此,提高多模态融合模型对输入损坏的鲁棒性成为未来研究的关键方向。
多模态融合模型通常使用来自camera和激光雷达传感器的数据进行训练。然而,部署的模型必须能够在其中一个传感器出现故障时也能正常工作。我们使用仅来自单一模态的输入来评估我们的多模态模型的性能,结果如表6所示。在模拟camera故障时,将所有像素值设置为零。对于激光雷达传感器故障,发现当所有点数据都缺失时(即NDS降至零),没有模型能够正常工作。因此,仅保留车辆前方[-45, 45]度范围内的点,并丢弃其他所有点。
研究结果表明,多模态模型对激光雷达输入的依赖程度过高。在激光雷达数据缺失的场景中,BEVFusion和Transfusion的mAP指标分别下降了89%和95%。相比之下,缺少图像数据导致的性能下降幅度要小得多。这一现象强调了在训练阶段,点云特征可能会对模型产生不成比例的影响,从而在感知任务中主导基于图像的特征。这种对激光雷达数据的依赖给多模态感知模型带来了显著的脆弱性,尤其是因为激光雷达传感器在雨、雪、雾等恶劣天气条件下容易数据损坏。这些结果促使我们进一步研究如何增强多模态感知系统的鲁棒性,特别是当一种感知模态完全缺失时。
3)有效性评估与鲁棒性改进
这里研究了在训练阶段将损坏作为数据增强策略的使用。为了系统地评估这种方法的有效性,在基准测试中对五个模型应用了损坏增强,结果详见表9。研究结果表明,损坏增强显著提高了我们提出的数据集中针对语义损坏的性能,特别是对那些原本给模型带来显著挑战的损坏类型(例如,运动模糊、雪)。然而,通过添加传感器损坏场景(如缺少摄像头信息)来增强训练数据,并没有显著提高模型的鲁棒性。这一结果强调了未来研究需要开发更复杂的模块,以处理不完整输入场景的重要性。
最近的研究表明,在互联网规模的数据集上以无监督方式训练的基础模型,与在常规数据集(如ImageNet)上训练的模型相比,表现出显著的泛化能力。受这些发现的启发,我们探索了将基础模型的泛化能力转移到BEV感知任务中的潜力。研究了在我们的模型中利用CLIP主干网络的三种不同方法:(1) 在训练过程中冻结主干网络,仅训练检测头;(2) 对主干网络和检测头进行微调;(3) 先冻结主干网络并训练检测头,然后对整个模型进行微调,因为先前的工作表明,尽管端到端的微调可以提高分布内性能,但可能会降低在分布外数据集上的鲁棒性。
这三种方法如图4所示,结果如表10所示。首先观察到的是,CLIP对于BEV感知任务并未得到很好的优化,这表现在当我们冻结CLIP主干网络时,良性性能较低。此外,使用随机初始化的检测头进行端到端的微调几乎没有带来任何改进。有趣的是,当应用损坏增强时,CLIP主干网络对基准模型的改进微乎其微。mRR(平均召回率)的改进仅为0.56,而配备损坏增强时,mRR甚至更低。最后,我们的两阶段训练在有效提高性能的同时,也将CLIP的鲁棒性转移到了BEV感知任务上,尤其是配备损坏增强时。鲁棒性的提升明显超过了端到端微调的CLIP。例如,在暗光、雾天和雪天条件下,NDS(归一化驾驶得分)分别提高了23.1%、11.8%和15.8%。
分析和讨论
1)Depth Estimation
无深度信息的BEV变换展现出更好的鲁棒性。分析揭示,当面对损坏的图像时,基于深度的方法会遭受严重的性能下降,如图6c和6d所示。此外,还进行了一项比较研究,以评估在损坏条件下BEVDepth的中间深度估计结果。为此,计算了“干净”输入与损坏输入之间的均方误差(MSE)。发现表明,脆弱性与深度估计错误之间存在明确的关联,如图3c所示。雪和暗光损坏会显著影响准确的深度估计,导致最大的性能下降。这些结果进一步支持了我们的结论,即如果深度估计不够准确,基于深度的方法的性能可能会受到严重影响。损坏条件下的深度估计结果可以从图5中看到,与“干净”输入相比,在某些损坏(例如雪)下我们可以看到显著的差异。
2)Model Pre-Training
预训练在各种语义损坏上提高了鲁棒性,但对时间损坏没有帮助。这些策略在提高模型鲁棒性方面的有效性如图6a和图6b所示,其中利用预训练的模型在很大程度上优于未使用的模型。为了进行对照比较,我们使用FCOS3D模型作为初始化,重新实现了BEVDet (r101)模型。如图10所示,结果表明,即使预训练模型在“干净”数据上的NDS较低(0.3780 vs. 0.3877),预训练仍然可以显著提高各种损坏(除了雾)下的mRR。在颜色量化、运动模糊和暗光损坏下,mRR指标分别提高了22.5%、17.2%和27.8%。值得注意的是,预训练主要改善了大多数语义损坏,但对时间损坏没有改善。尽管如此,经过预训练的BEVDet仍然在很大程度上落后于无深度信息的同类模型。因此,我们可以得出结论,预训练与无深度信息的鸟瞰图变换相结合,为模型提供了强大的鲁棒性。最近,M-BEV提出了mask预训练任务,以增强在不完整传感器输入下的鲁棒性。我们将mask预训练的PETR与其相应的基线进行了比较。结果如表11所示,发现M-BEV最能有效地提高对不完整传感器输出的鲁棒性,并揭示了掩码图像建模预训练在BEV感知任务中的潜力。
3)Temporal Fusion
在受到干扰的情况下的性能。融合更长的时序信息在很大程度上有助于增强鲁棒性。特别关注利用时序信息的模型在时序干扰下的表现。与仅使用短期和长期版本的模型相比,融合了更广泛和更丰富的时序信息的SOLOFusion模型表现极佳。在相机崩溃的情况下,仅使用短期和仅使用长期版本的模型的恢复率性能相近(65.04 vs. 65.13)。然而,融合版本将恢复率提高到了70.73,这是所有候选模型中最高的。类似地,在帧丢失干扰下,融合版本相比于其他两个版本将恢复率提高了近10%。此外,其长期版本的RR指标在广泛的干扰类型上均优于短期版本,这表明利用更长的时序信息具有巨大的潜力。
为了进一步研究时序融合对增强干扰鲁棒性的影响,使用BEVFormer模型来评估与“干净”的时序输入相比,有时序信息整合和没有时序信息整合时的特征误差。我们计算了带有时序信息和不带有时序信息的受损输入与带有时序信息的“干净”输入之间的均方误差(MSE),结果如图12所示。注意到,在时序融合模型中(由蓝色条表示),随着时间的推移,误差呈现增加的趋势,这归因于连续受损输入下的误差累积。尽管如此,时序融合始终在帧之间展现出误差缓解效果。
然而,我们发现并非所有使用时间融合的模型在相机崩溃和帧丢失的情况下都表现出更好的鲁棒性。这种鲁棒性与如何融合历史帧以及使用了多少帧高度相关,这强调了从更广泛的角度评估时间融合策略的重要性。结果如图7所示。尽管如此,时间融合仍然是增强时间鲁棒性的潜在方法,因为具有最低损坏误差(或最高恢复率)的模型始终是那些使用时间信息的模型。
4)Backbone
Swin Transformer 对光照变化更为敏感;VoVNet-V2 对雪天气的鲁棒性更强,而 ResNet 在广泛的干扰情况下表现出更好的鲁棒性。尽管 ResNet [120] 和 VoVNet [63] 在标准性能上相近,但基于 ResNet 的检测器在各种干扰情况下始终表现出更高的鲁棒性,如图 8 所示。相反,VoVNet 主干网络在雪天气干扰下始终表现出更好的鲁棒性。此外,基于 Swin Transformer [45] 的 BEVDet [3] 对光照条件的变化(例如,明亮和黑暗)表现出显著的脆弱性。在图 9 中可以找到清晰的比较。受到 [119] 的启发,我们计算了在良性输入和干扰输入下,由主干模型提取的特征空间中的 Gramian 矩阵。基于这些计算,我们计算了“干净”输入和干扰输入之间 Gramian 矩阵的相对误差。
5)Corruptions
像素分布偏移与模型性能下降之间的关系并不直接。我们从nuScenes数据集中抽取了300张图像来计算像素分布,并将像素直方图可视化在图2中。有趣的是,运动模糊引起的像素分布偏移最小,但却导致了相对较大的性能下降。另一方面,亮度偏移将像素分布推向更高的值,而雾通过将像素值向更集中的区域移动使精细特征变得更模糊。然而,这两种干扰只导致了最小的性能差距,这表明模型的鲁棒性并不简单地与像素分布相关。
6)Detailed Metrics
在图像损坏的情况下,速度预测错误会放大,并且归因和尺度误差在不同模型之间存在差异。虽然我们的研究主要报告了nuScenes检测得分(NDS)指标,但图11中展示了关于模型鲁棒性的额外见解。我们发现,包含时间信息的模型(如BEVFormer 和BEVerse)的平均绝对速度误差(mAVE)显著低于不包含时间信息的模型。然而,即使是具有时间融合的模型也无法免受图像损坏的不利影响;特别是,在轻微光照变化的情况下,速度预测错误也会显著增加。图11b和11f表明,运动模糊损坏对BEVFormer和BEVerse的速度预测都有不利影响,揭示了这些包含时间数据的模型存在的显著脆弱性。此外,对归因和尺度误差的进一步分析揭示了模型之间的显著异质性。无深度模型在这些指标上表现出一致的性能,而基于深度的模型则显示出明显的变异性。这一观察强调了基于深度的方法对图像损坏的高度敏感性,并强调了需要进一步研究以增强其鲁棒性的必要性。