UniBEV：统一BEV编码器助力多模态融合新SOTA！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

背景介绍

智能汽车通常利用多个传感器进行鲁棒的目标检测，包括激光雷达(LiDARs)和camera。这些设备每个都有其独特的优势。camera提供丰富的纹理数据，而激光雷达通过密集的点云提供准确的几何信息。传统上，大多数多传感器模型都专注于在所有传感器都正常工作时最大化检测性能。然而，在现实世界中，一个或多个传感器可能会失败或缺失。为了解决这个问题，这项研究旨在设计一个"鲁棒的"多传感器目标检测模型。这样的模型将无缝地融合camera和激光雷达的数据，但也可以仅使用一个传感器的输入有效地运作。

之前的工作与挑战

在多传感器目标检测的最新技术中，通常使用鸟瞰视图 (Bird's-Eye view，简称BEV) 功能作为中介步骤来合并多传感器信息。

其中一个著名的例子是 BEVFusion，它融合了来自激光雷达和camera的多模态BEV特征。但是，从这两个来源提取这些特征的方法存在差异，可能导致camera和激光雷达BEV特征之间的不对齐。

近期的 MetaBEV 优化了BEVFusion，采用了一个包含多个可变形注意层的模块来更好地对齐特征，尽管并没有完全解决底层特征的不对齐问题。

提出的解决方案 - UniBEV

本文介绍了名为 UniBEV 的端到端模型，重点是对多模态3D目标检测的鲁棒性。UniBEV的新颖之处在于其从不同传感器统一提取BEV特征的方法，确保了特征的良好对齐。

UniBEV的关键设计组件：

统一架构：camera和激光雷达分支都采用统一的可变形注意力为基础的架构。这样就避免了对camera进行明确的深度预测。
共享查询：该模型在两个分支之间使用共享查询来进一步加强特征对齐并刺激两个分支之间的互动。
特征融合：论文探讨了不同的特征融合策略，包括连接、平均和新提出的通道归一化权重 (Channel Normalized Weights，简称CNW)。当考虑到模态丢失的情况时，与传统的连接方法相比，CNW提供了更好的性能。

主要贡献：

鲁棒模型提议 - UniBEV：这项研究介绍了UniBEV，一个针对模态缺失的鲁棒性的3D目标检测模型。在nuScenes数据集上的实验表明，UniBEV比最先进的模型BEVFusion和MetaBEV表现更好。
特征融合技术的探讨：该论文深入探讨了各种特征融合方法，并强调了它们提出的通道归一化权重 (CNW) 在模态掉出的情境中相对于传统的连接方法的优势。
共享BEV查询的影响：通过比较所有模态的BEV编码器之间的共享BEV查询与使用单独的查询，研究表明共享查询在所有输入组合中都提供了持续的小幅改进。

这篇论文强调了一个鲁棒的多传感器目标检测系统在面对传感器故障时仍然保持鲁棒性的必要性。通过UniBEV，它不仅提供了一个解决方案，而且还探讨了特征融合和对齐的细节，为自动驾驶汽车感知系统领域增加了重要价值。

主要方法

Feature Extractors

特征提取器是机器学习和深度学习模型中的关键组件，它负责从输入数据（如图像或点云）中提取有意义的特征，这些特征随后被用于进一步的分析和决策。

从上述描述中，UniBEV使用了两种主要的特征提取器：

图像特征提取器：

输入：来自多个camera视角的图像。
使用的主要工具：ResNet-101，它是一个深度的卷积神经网络。
操作：图像首先经过ResNet-101网络，产生一个特征图，该特征图在原始图像坐标中有一个确定的分辨率，同时具有特定的特征维度。所得到的特征可以表示图像中的各种目标、形状、纹理和其他重要信息。
输出：图像特征。

LiDAR点云特征提取器：

输入：LiDAR scan，通常包括三维空间中的点云数据。
使用的主要工具：VoxelNet，这是一个专为点云数据设计的特征提取网络。
操作：LiDAR数据首先被体素化，这意味着连续的三维空间被划分成体素（即小的、离散的三维单元）。VoxelNet然后对这些体素化的数据进行处理，提取鸟瞰图中的网格状特征。
输出：LiDAR特征，它在鸟瞰图中具有确定的空间形状和特征维度。

这两个特征提取器从各自的输入数据中提取特征，这些特征随后可以用于目标检测、分类或其他任务。

Uniform BEV Feature Encoders

在特征提取之后，LiDAR和摄像机得到的特征（即和）仍然在不同的坐标系统中表示。使用与目标BEV空间相似的3D空间坐标，而则使用2D图像坐标。虽然现有的方法通常会进一步将图像特征转移到鸟瞰图中并通过连接来简单地融合两个BEV特征，但UniBEV引入了一个为所有传感器模态设计的统一方案，以获得更好对齐的BEV特征。

查询：首先定义了一组可学习的BEV查询向量与相应的3D空间位置。这些查询向量在所有模态中都是共享的。具体来说，查询参数表示BEV查询，其中是车辆本地空间坐标中的2D BEV空间网格分辨率，而是BEV查询中的通道数。此外，包含BEV参考点在3D空间网格中的相应空间坐标。
投影：这一阶段的目的是将BEV空间位置投影到每个模态的特征图的本地空间坐标系统中。对于每个摄像机，3D点被投影到其2D基于图像的坐标。对于LiDAR，被投影到LiDAR特征图的空间坐标。
编码：使用3层的可变自注意力和可变跨注意力，对每个模态的BEV特征图进行构建。对于摄像机，第一层的BEV编码器的特征图是通过对所有可见参考的所有视图和每个查询的所有D位置进行求和来获得的。而对于LiDAR，LiDAR BEV编码器执行相同的操作，其第一特征图同样表示为。

这个过程确保从摄像机和LiDAR得到的BEV特征在同一个坐标系中，并具有相同的尺寸和结构。这样，当特征从不同的传感器融合时，它们可以更好地对齐。

Fusion Module: Channel Normalized Weights

这段内容讨论了两种用于融合Bird's Eye View (BEV)特征图的策略：均值融合和Channel Normalized Weights (CNW)。以下是对这段内容的解释和总结：

均值融合 (Averaging Fusion)

此策略很简单，它通过对所有可用模态特征图进行平均（或求和）来融合BEV特征图。此方法的潜在缺点是可能会稀释来自更可靠传感器的信息，但其优点是永远不需要使用占位符值，并确保融合的BEV特征图总是与每个模态BEV特征图具有相同的通道数。

Channel Normalized Weights (CNW)

CNW是均值融合的一个推广。对于每种模态，它学习一个-维权重向量，该权重向量在训练后保持不变。每个元素表示在融合结果的第个通道中模态的相对重要性。在融合之前，所有权重会被标准化，以确保它们每个通道的和为1。

对于两种模态（LiDAR和摄像机），有以下标准化公式：

融合的公式为：

其中，表示与空间维度的广播相结合的逐通道乘法。

当只有一个模态可用时，对每个通道应用softmax，并将完整的权重分配给该模态。例如，。

CNW有一个特点，当在和中所有学到的通道权重都接近时，它会退化为平均融合。另一方面，CNW也可以通过允许融合输出的通道仅从一个模态获取信息来反映串联融合，如果这些通道的学到的权重仅接近0或1。

直观地说，CNW为模型添加了少量的可学习参数，以在这些特殊情况之间提供更多的灵活性，允许它优化每种模态融合的相对重要性，并仍然为单一模态输入提供有意义的值。实验结果将展示UniBEV为每种模态构建的BEV特征具有相似的大小分布，确保我们的CNW能够区分不同通道的重要性，而不是随机的尺度函数。

Detection Head and Modality Dropout Strategy

基于之前的研究，我们将边界框检测视为一种集合预测问题，并采用BEVFormer的解码器进行3D目标检测任务。为了针对传感器失效进行模型训练，我们采用了常见的"模态丢失" (Modality Dropout, MD) 训练策略。因此，在训练过程中，我们以概率随机丢弃一个模态的BEV特征，即或。

实验对比

在nuScenes的验证集上，对比了多种3D目标检测方法的性能后，我们可以明确地看到，本文提出的方法UniBEV在各种模态和输入条件下都展现了卓越的性能。首先，从单模态模型的性能来看，尽管BEVFormer_S和CenterPoint在各自的专业模态（相机和LiDAR）上展现了很好的效果，但它们在其他模态中不具备适用性。然而，当我们考虑多模态模型时，尤其是那些使用了模态丢失策略的模型，UniBEV在所有的评估指标上均胜过了其它方法。无论是使用LiDAR和相机的组合，还是单独的LiDAR或相机，UniBEV都保持了最高的NDS和mAP得分。

更为重要的是，从总结指标来看，UniBEV的NDS和mAP分数分别为58.7和52.5，这远远超过了其他被评估的方法。这一结果进一步强调了UniBEV在3D目标检测任务中的卓越性能，尤其是在处理来自不同传感器的多模态数据时。它不仅能够有效地融合和利用这些模态的信息，还可以在某个模态不可用时维持高水平的性能。总的来说，根据这些实验数据，我们可以自信地说，本文提出的UniBEV方法在3D目标检测领域中是一种高效和鲁棒的解决方案。

这个表格是为了比较在固定解码器维度为256的情况下，不同融合方法在nuScenes验证集上的性能。这些方法分别是：UniBEV_cat，UniBEV_avg和UniBEV_CNW。

从这些数据中，我们可以观察到以下几点：

融合方法的影响: UniBEV_cat采用拼接(concatenation)作为其融合方法，它的编码器维度为128，而其他两种方法（平均和CNW）都有一个256的编码器维度。即使如此，UniBEV_cat的整体性能略低于其他两种方法。
平均融合 (UniBEV_avg) vs 通道归一化权重融合 (UniBEV_CNW): 平均融合方法的性能与UniBEV_CNW非常接近，但在LiDAR和相机的组合（L+C）以及仅使用相机(C)时的性能略低。这表明UniBEV_CNW融合策略对于利用不同模态的特征提供了一个更优化的策略。
性能指标: 在摘要度量中，UniBEV_CNW获得了最高的评分52.5，而UniBEV_avg紧随其后，得分为52.3。UniBEV_cat的摘要度量为51.9，这进一步证明了通道归一化权重融合方法的优越性。
编码器维度的影响: 从数据中，我们可以看到UniBEV_cat具有较小的编码器维度，这可能会影响其性能，尤其是与其他两种方法相比。

在固定解码器维度的情况下，UniBEV_CNW融合方法提供了最佳的性能，尤其是在考虑使用多模态信息时。这证明了这种融合策略能够更有效地利用来自不同传感器的信息。而UniBEV_avg作为一种简单的平均融合策略，其性能也相当出色，与UniBEV_CNW相当接近。这显示了简单的平均方法在某些情况下也可以表现得非常好。然而，使用拼接作为融合策略的UniBEV_cat在性能上稍微逊色一些，这可能与其编码器维度较小有关。

一些讨论

本文提出的UniBEV方法是一种强大的3D目标检测策略，尤其是在多模态场景中，它能有效地融合LiDAR和相机的信息，从而达到了卓越的性能。通过引入通道归一化权重（CNW）作为其核心融合机制，该方法不仅能够根据不同的信息源动态地分配权重，而且还可以在单一模态输入的情况下提供出色的性能，这在某种程度上表明了它的鲁棒性和灵活性。

然而，虽然其表现出色，但也存在一些潜在的限制。首先，尽管它在单一模态情况下具有良好的性能，但它在设计上仍旨在处理多模态数据，这可能意味着在纯粹的单一模态任务上可能不如专门为该任务设计的模型。其次，它的性能依赖于学习到的通道权重，这可能在某些极端情况下引入噪声或过拟合。

在此基础上，为了进一步创新和提高性能，我们可以考虑以下几个方向：

深入探索融合策略：尽管CNW是一个有效的融合策略，但仍然有可能找到其他更强大的策略，或者将多个策略结合以实现更强的表现。
模型正则化：为了防止过拟合，我们可以考虑引入更先进的正则化技术或增强数据。
多模态数据的先进表示：除了直接的特征融合，我们还可以探索如何更有效地表示和处理多模态数据，例如通过更深入地理解每种模态的语义内容。

综上所述，虽然UniBEV方法在多模态3D目标检测任务中取得了很大的成功，但仍有进一步提高和创新的空间，这为未来的研究提供了广阔的机会。

结论分析

在本文中，我们提出了UniBEV，一种新颖且高效的3D目标检测方法，特别强调了在多模态场景中的LiDAR和相机数据的融合。通过独特的通道归一化权重融合策略，该方法实现了对不同信息来源的动态权重分配，确保了在多种输入情境下的强大性能。实验结果不仅展示了UniBEV在多模态数据上的优势，而且还显示了其在单一模态输入下的出色表现，证明了其在3D目标检测任务上的鲁棒性和灵活性。尽管该方法已经取得了很大的进步，但仍然存在进一步探索和优化的空间，以更好地适应不断变化和发展的应用场景。总的来说，UniBEV为多模态3D目标检测领域开辟了新的可能性，为未来的研究和应用提供了坚实的基础。

原文链接：https://mp.weixin.qq.com/s/kHmdEhQynz41Un_kDNZO_A