SupFusion：探索如何有效监督Lidar-Camera融合的3D检测网络？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

基于激光雷达相机融合的3D检测是自动驾驶的一项关键任务。近年来，与单模态检测器相比，许多激光雷达相机融合方法涌现，并取得了良好的性能，但始终缺乏精心设计和有效监督的融合过程。

本文提出了一种称为SupFusion的新训练策略，该策略为激光雷达相机融合提供了辅助特征级监督，并显著提高了检测性能。方法主要包括一种名为Polar Sampling的数据增强方法，该方法加密稀疏目标并训练辅助模型以生成高质量特征作为监督。这些特征随后被用于训练激光雷达相机融合模型，其中融合特征被优化以模拟生成高质量特征。此外，还提出了一种简单而有效的深度融合模块，与以前使用SupFusion策略的融合方法相比，该模块连续获得了优越的性能。通过这种方式，本文的方法具有以下优点：首先，SupFusion引入了辅助特征级监督，可以在不引入额外推理成本的情况下提高激光雷达相机的检测性能。其次，所提出的深度融合可以不断提高检测器的能力。提出的SupFusion和深度融合模块是即插即用的，论文进行了大量实验来证明其有效性。在基于多个激光雷达相机3D检测的KITTI基准上获得了约2%的3D mAP改进！

图1：顶部，以前的激光雷达相机3D检测模型，融合模块是通过检测loss进行优化的。底部：本文提出的SupFusion，通过辅助模型提供的高质量特征引入辅助监督。

基于激光雷达相机融合的3D检测是自动驾驶和机器人技术的一项关键且具有挑战性的任务，先前的方法总是通过内参和外参将相机输入投影到激光雷达BEV或体素空间，以对齐激光雷达和相机特征。然后，采用简单的级联或求和来获得用于最终检测的融合特征。此外，一些基于深度学习的融合方法获得了有希望的性能。然而，以往的融合方法总是通过检测损失直接优化3D/2D特征提取和融合模块，这在特征层面缺乏精心设计和有效的监督，限制了其性能。

近年来，蒸馏方式在用于3D检测的特征级监督方面显示出很大的改进。一些方法提供了激光雷达特征，以指导2D主干根据相机输入估计深度信息。此外，一些方法提供了激光雷达相机融合功能，以监督激光雷达主干从激光雷达输入中学习全局和上下文表示。通过模拟更稳健和高质量的特征引入特征级辅助监督，检测器可以促进边际改进。受此启发，处理激光雷达相机特征融合的自然解决方案是提供更强、高质量的特征，并为激光雷达相机3D检测引入辅助监督！

为此，本文提出了一种名为SupFusion的监督式激光雷达相机融合方法，以生成高质量的特征，并为融合和特征提取过程提供有效的监督，进一步提高基于激光雷达相机的融合3D检测性能。首先训练一个辅助模型来提供高质量的功能。为了实现这一点，与以前利用较大模型或额外数据的方法不同，本文提出了一种新的数据增强方法，称为Polar Sampling。Polar Sampling可以从稀疏的激光雷达数据中动态增强目标的密度，这更容易检测并提高特征质量，例如，特征可以得出准确的检测结果。然后，简单地训练基于激光雷达相机融合的检测器，并引入辅助特征级监督。在这一步中，将原始激光雷达和相机输入输入到3D/2D主干和融合模块中，以获得融合特征。一方面，融合特征被馈送到检测头中用于最终预测，这是决策级监督。另一方面，辅助监督将融合特征模拟为高质量特征，这些特征是通过预训练的辅助模型和增强的激光雷达数据获得的。通过这种方式，所提出的特征级监督可以使融合模块生成更稳健的特征，并进一步提高检测性能。为了更好地融合激光雷达和相机的特征，本文提出了一种简单而有效的深度融合模块，该模块由堆叠的MLP块和动态融合块组成。SupFusion可以充分挖掘深度融合模块的能力，并不断提高探测精度！

本文的主要贡献：

提出了一种新的监督融合训练策略SupFusion，该策略主要由高质量的特征生成过程组成，并首次提出了用于鲁棒融合特征提取和精确3D检测的辅助特征级监督损失。
为了在SupFusion中获得高质量的特征，提出了一种名为“Polar Sampling”的数据增强方法来加密稀疏目标。此外，还提出了一种有效的深度融合模块，以连续提高检测精度。
基于具有不同融合策略的多个检测器进行了广泛的实验，并在KITTI基准上获得了约2%的mAP改进。

提出的方法

高质量的特征生成过程如下图所示，对于任何给定的LiDAR样本，通过polar pasting粘贴来加密稀疏目标，极轴polar pasting计算方向和旋转以从数据库中查询密集目标，并通过pasting为稀疏目标添加额外的点。本文首先通过增强的数据训练辅助模型，并将增强的激光雷达数据馈送到辅助模型中，以在其收敛后生成高质量特征f*。

高质量的特征生成

为了在SupFusion中提供特征级监督，采用了一个辅助模型来从增强的数据中捕获高质量的特征，如图3所示。首先，训练一个辅助模型来提供高质量的特征。对于D中的任何样本，通过polar pasting来增强稀疏的激光雷达数据，以获得增强的数据，该极性粘贴通过极性分组中生成的添加点集来加密备用目标。然后，在辅助模型收敛之后，将增强的样本输入到优化的辅助模型中，以捕获高质量特征，用于训练激光雷达相机3D检测模型。为了更好地应用于给定的激光雷达相机检测器并更容易实现，这里简单地采用激光雷达分支探测器作为辅助模型！

检测器训练

对于任何给定的激光雷达相机检测器，在特征级别使用所提出的辅助监督来训练模型。给定样本，的情况下，首先将激光雷达和相机输入到3D和2D编码器和中，以捕获相应的特征和，这些特征被输入到融合模型中以生成融合特征，并流到检测头中进行最终预测。此外，采用所提出的辅助监督来模拟具有高质量特征的融合特征，该特征是由预先训练的辅助模型和增强的激光雷达数据生成的。上述过程可以公式化为：

Polar Sampling

为了在提出的SupFusion中通过辅助模型提供高质量的特征，本文提出了一种新的数据增强方法，称为Polar Sampling，以缓解经常导致检测失败的稀疏问题。为此，用类似的密集目标对激光雷达数据中的稀疏目标进行了密集处理。极坐标采样由两部分组成，包括极坐标分组和polar pasting。在极性分组中，主要建立一个数据库来存储密集目标，该数据库用于polar pasting以使稀疏目标致密化。

考虑到激光雷达传感器的特性，收集到的点云数据自然存在特定的密度分布，例如，物体在表面上有更多的点朝向激光雷达传感器，而在相对两侧的点很少。密度分布主要受方向和旋转的影响，而点的密度主要取决于距离，例如，离激光雷达传感器更近的物体具有更密集的点。受此启发，本文的目标是根据稀疏目标的方向和旋转，将长距离的稀疏目标与短距离的密集目标进行密度化，以保持密度分布。基于场景中心和特定目标为整个场景以及目标建立极坐标系，并将激光雷达传感器的正方向定义为0度，以测量相应的方向和旋转。然后，收集具有相似密度分布（例如，具有相似方向和旋转）的目标，并为极性分组中的每组生成一个密集目标，并在polar pasting中使用它来密集稀疏目标。

Polar Grouping

如图4所示，这里构建了一个数据库B，根据极性分组中的方向和旋转来存储生成的密集物点集l，在图4中记为α和β！

首先，搜索整个数据集，通过位置计算所有目标的极角，并在基准中提供旋转。其次，根据目标的极角将它们分成几组。手动将方向和旋转划分为N组，对于任何目标点集l，都可以根据索引将其放入相应的组中：

Polar Pasting

如图2所示，利用Polar Pasting来增强稀疏的激光雷达数据，以训练辅助模型并生成高质量特征。给定LiDAR样本，，，，包含个目标，对于任何目标，都可以计算与分组过程相同的方向和旋转，并根据标签和索引从B查询密集目标，这可以从E.q.6中获得增强样本中的所有目标并获得增强的数据。

Deep Fusion

为了模拟增强型激光雷达数据生成的高质量特征，融合模型旨在从相机输入中丰富的颜色和上下文特征中提取稀疏目标的缺失信息。为此，本文提出了深度融合模块，以利用图像特征并完成激光雷达演示。所提出的深度融合主要由3D学习器和2D-3D学习器组成。3D学习器是一个简单的卷积层，用于将3D呈现转移到2D空间中。然后，连接2D特征和3D呈现（例如，在2D空间中），2D-3D学习器被用来融合LiDAR相机特征。最后，通过MLP和激活函数对融合特征进行了加权，将其添加回原始激光雷达特征作为深度融合模块的输出。2D-3D学习器由深度为K的堆叠MLP块组成，学习利用相机特征来完成稀疏目标的激光雷达表示，以模拟密集激光雷达目标的高质量特征。

实验对比分析

实验结果(mAP@R40%）。这里列出了三个类别的简单、中等（mod.）和困难情况，以及总体性能。这里L、LC、LC*表示相应的激光雷达检测器、激光雷达相机融合检测器和本文提案的结果。∆表示改进。最佳结果以粗体显示，预期L†是辅助模型，并在增强验证集上进行测试。MVXNet是基于mmdetection3d重新进行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的开源代码重新进行的。

整体性能。3DmAP@R40基于三个检测器的比较如表1所示，三个类别和每个难度划分的总体性能。可以清楚地观察到，通过引入额外的相机输入，激光雷达相机方法（LC）优于基于激光雷达的检测器（L）。通过引入极性采样，辅助模型（L†）可以在增强的验证集上获得令人钦佩的性能（例如超过90%的mAP）。有了高质量特征的辅助监督和提出的深度融合模块，我们的proposal可以不断提高检测精度。例如，与基线（LC）模型相比，我们的proposal可以为中度和hard目标获得+1.54%和+1.24%的3D mAP改善。此外，还对基于SECOND-LC的nuScenes基准进行了实验，如表2所示，NDS和mAP分别提高了+2.01%和+1.38%。

class感知改进分析。与基线模型相比，SupFusion和深度融合不仅可以提高整体性能，还可以提高包括Pedestrian在内的每个类别的检测性能，比较三个类别的平均改善（例如中等情况），可以获得以下观察结果：骑自行车的人获得最大的改善（+2.41%），而行人和汽车分别获得+1.35%和+0.86%的改善。原因很明显：（1）与行人和骑自行车的人相比，汽车更容易被发现，并获得最佳效果，因此更难改进。（2）与行人相比，骑自行车的人获得了更多的改进，因为行人是非网格的，生成的密集目标与骑自行车的相比不那么好，因此获得的性能改进较低！

原文链接：https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw