多模态融合全新框架 | FusionFormer：BEV时空融合新高度！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

我们这篇论文解读介绍了一种名为FusionFormer的多模态融合框架，用于三维目标检测。该框架旨在解决自动驾驶中的一些挑战，包括传感器之间的差异以及信息融合的有效性。

在自动驾驶技术中，通常会使用多个传感器来提高安全性，例如激光雷达、摄像头和雷达。这些传感器具有不同的特点，例如激光雷达可以提供准确但稀疏的三维点云信息，而图像具有密集的特征但缺乏深度信息。为了提高性能，可以使用多模态融合来整合这些传感器的优点。通过结合多个传感器的信息，自动驾驶系统可以实现更高的准确性和鲁棒性，从而在实际应用中更可靠。

传统的多模态特征融合方法通常使用简单的拼接操作将不同传感器的特征在鸟瞰图空间中进行拼接。然而，这些方法存在一些局限性。首先，在这些方法中，为了得到点云的鸟瞰图特征，点云的Z轴信息被压缩到通道维度中，这可能导致高度信息的丢失。这可能会影响涉及高度信息的下游任务的性能，例如需要预测边界框的高度的三维目标检测。其次，目前的方法独立地获取来自图像和点云的鸟瞰图特征，没有充分利用每种模态的互补优势。例如，将图像特征转换为鸟瞰图特征的过程严重依赖于准确的深度预测。然而，单目深度预测是一个不适定问题，很难实现高精度。不准确的深度预测可能导致视角变换错误，影响检测性能。实际上，稀疏的激光雷达点云特征可以提供补充的深度信息，以提高视角变换的准确性。然而，目前的方法未能有效地利用这个潜力。

为了解决这些问题，我们提出了一种名为FusionFormer的新型多模态融合框架。FusionFormer通过使用可变形注意力顺序地融合激光雷达和图像特征，可以生成融合的鸟瞰图特征。通过开发一种统一的采样策略，FusionFormer可以同时从二维图像和三维体素特征中进行采样，从而在不同模态输入之间展现出灵活的适应性。因此，多模态特征可以以它们的原始形式输入，避免了转换为鸟瞰图特征时的信息损失。在融合编码过程中，点云特征可以作为图像特征的视角变换的深度参考，而来自图像的稠密语义特征则互补了点云特征的稀疏性，从而生成更准确和更密集的融合的鸟瞰图特征。值得注意的是，多模态融合编码器采用了残差结构，确保了模型在缺失点云或图像特征的情况下的鲁棒性。此外，FusionFormer还支持历史鸟瞰图特征的时间融合，使用了基于可变形注意力的插件式时间融合模块。当与三维目标检测头部结合时，FusionFormer可以进行端到端的训练，并具有最先进的性能。此外，基于FusionFormer对输入模态表示的灵活适应性，论文还提出了一种方法，利用单目深度预测结果而不是激光雷达分支来提高基于摄像头的三维目标检测的性能。

我们的方法

1 MULTI-MODAL BRANCHES

MULTI-MODAL BRANCHES是FusionFormer方法中用于处理多模态特征的分支。

Camera Branch：该分支用于从多视图相机图像中提取图像特征。通常使用诸如ResNet-101等骨干网络提取图像特征。提取的图像特征经过Feature Pyramid Network (FPN)处理，生成多尺度的图像特征。
LiDAR Branch：FusionFormer方法支持多种多模态特征的表示形式。该研究探索了两种不同的LiDAR特征表示形式，具体是BEV（Bird's Eye View）特征和体素特征。原始的点云数据经过体素化处理，并通过稀疏的三维卷积操作进行处理。在一种情况下，通过使用三维卷积操作对体积表示进行编码，得到体素特征。在另一种情况下，将特征的Z轴压缩到通道维度，并使用二维卷积操作获取BEV特征。

通过这些多模态分支，FusionFormer方法能够同时处理来自相机和LiDAR的多模态特征，为后续的融合和目标检测任务提供丰富的输入信息。

2 MULTI-MODAL FUSION ENCODER

Multi-modal Fusion Encoder是FusionFormer方法中的一个模块，用于融合多模态特征。该模块包含6个编码层，每个编码层都包括自注意力（self-attention）、点云交叉注意力（points cross-attention）和图像交叉注意力（image cross-attention）。下面对Multi-modal Fusion Encoder的各个部分进行介绍：

BEV Queries（BEV查询）：首先，将BEV（Bird's Eye View）空间划分为网格，每个网格单元对应一个BEV查询。在输入到融合编码器之前，对BEV查询进行位置编码，根据其对应的BEV空间坐标进行操作。
Self-Attention（自注意力）：为了减少计算资源的使用，采用了基于可变形注意力的自注意力机制。每个BEV查询只与其在ROI范围内的相应查询进行交互。通过在每个查询的2D参考点进行特征采样来实现交互。
Points Cross-Attention（点云交叉注意力）：该层也采用了可变形注意力机制，但根据LiDAR特征的形式的不同，实现点云交叉注意力的方式有所不同。当使用BEV特征作为输入时，点云交叉注意力层的实现如下所示。它将BEV特征作为输入，并在LiDAR分支输出的BEV特征上执行可变形注意力操作。
Image Cross-Attention（图像交叉注意力）：图像交叉注意力的实现方式与点云交叉注意力类似，但是针对使用体素特征作为输入的情况。由于图像具有多个视角，每个查询的3D参考点只能投影到一部分相机视图上。因此，在图像交叉注意力过程中，仅将可投影的相机视图作为参与计算的对象。

通过这些编码层的多次迭代，最终得到融合了多模态特征的BEV特征。Multi-modal Fusion Encoder模块的目标是通过自注意力、点云交叉注意力和图像交叉注意力相互作用，充分利用不同模态的信息，提高特征的表达能力和融合效果。

3 TEMPORAL FUSION ENCODER

TFE包括三个层，每个层都包括BEV时间注意力（BEV temporal-attention）和前馈网络（feedforward networks）。在第一层，查询（queries）使用当前帧的BEV特征进行初始化，并通过历史BEV特征的时间注意力进行更新。得到的查询通过前馈网络进行处理，并作为下一层的输入。经过三层融合编码后，得到最终的时间融合BEV特征。

时间注意力的过程可以表示为：

其中，表示时间时刻的BEV特征。

上述公式表示，在时间注意力过程中，通过对历史帧的BEV特征与当前查询进行自注意力操作，得到加权的历史特征表示。

TFE模块通过多层的时间注意力和前馈网络，实现了时间序列数据的融合编码。它充分利用了历史帧的信息，通过自注意力机制对查询进行更新，从而得到更准确的时间融合BEV特征。TFE模块的输出可以作为后续的3D检测头（3D Detection Head）的输入，用于直接生成BEV特征的3D检测框和速度预测，无需进行后处理的非最大抑制（NMS）操作。

4 3D DETECTION HEAD

论文提出了基于Deformable DETR的3D检测头，它可以直接从BEV特征输出3D检测框和速度预测，无需进行NMS后处理。为了解决类似DETR检测头中遇到的不稳定匹配问题并加快训练收敛速度，论文提出了一种受DN-DETR启发的新方法。在训练过程中，论文使用带有噪声的真实编码（ground-truth encodings）增强查询，并通过将预测结果与真实值进行直接比较来计算损失，而无需进行匹配过程。

5 FUSION WITH DEPTH PREDICTION

为了在仅有相机图像的场景中近似点云分支，FusionFormer具有很高的灵活性，可以添加基于图像的单目深度预测分支。如图所示，我们提出了一个深度预测网络，用于从输入图像特征生成基于区间的深度预测。利用3D卷积将深度预测结果编码为每个相机视锥体中的体素特征。然后，采用深度交叉注意力来融合深度特征。深度交叉注意力的过程定义如下：

其中，表示第j个相机的编码深度预测特征，表示查询的第i个三维参考点在第j个相机的视锥体坐标系上的投影点。上述公式表示，在深度交叉注意力过程中，通过将查询与每个相机视锥体中的投影点进行自注意力操作，对深度特征进行加权融合。Fusion with Depth Prediction模块利用深度预测网络生成的深度特征，并通过深度交叉注意力机制将其与其他模态的特征进行融合。这样，即使只有相机图像，也能够近似地捕捉到点云的信息，并与其他模态的特征相结合，提高最终的融合特征的表达能力。

实验对比分析

根据提供的实验结果表格，我们可以进行以下结果分析：

模态对比：从表格中可以看出，使用多模态数据（Camera和LiDAR）的方法（如BEVFusion、CMT和DeepInteraction）在大多数评估指标上表现较好。单独使用相机或LiDAR数据的方法（如BEVFusion和BEVFusion4D）相对而言表现较差。这说明多模态信息的融合可以提高3D检测的性能。
时间信息对比：与只使用当前帧信息的方法相比，使用时间序列信息的方法（如BEVFusion4D和FusionFormer）在NDS、mATE和mAOE等指标上取得了更好的结果。这表明引入时间序列数据有助于改善3D检测的稳定性和准确性。
FusionFormer性能：FusionFormer在大多数评估指标上都达到了最佳结果。它在NDS指标上超过了其他方法，并在mAAE指标上达到了最低值。这表明FusionFormer在综合性能和平均角度误差方面优于其他方法。

也就是说FusionFormer方法在多模态数据和时间序列数据的融合上取得了良好的效果，具有较高的性能和稳定性，能够直接从BEV特征中输出3D检测框和速度预测，无需进行后处理的非最大抑制（NMS）操作。

根据实验结果表格的数据对比，在nuScenes数据集的验证集上，我们对比了多种方法的性能。多模态数据融合方法，如BEVFusion、CMT和DeepInteraction，展现了相对较好的mAP和NDS指标，说明多模态信息的综合利用对于3D检测的性能至关重要。同时，引入时间序列信息的方法，如BEVFusion4D和FusionFormer，在mAP和NDS指标上取得了更好的结果，这表明时间序列数据对于提高3D检测的准确性和稳定性具有积极影响。

在这些方法中，FusionFormer在综合性能上表现出色。它通过有效地融合相机、LiDAR和时间序列数据，能够直接从BEV特征中输出3D检测结果，无需进行后处理的非最大抑制（NMS）操作。FusionFormer在mAP和NDS指标上均取得最佳结果，超过了其他方法。这显示出FusionFormer在复杂场景下具有强大的检测能力和鲁棒性。

因此，综合考虑多模态数据融合和时间序列信息的重要性，以及FusionFormer在综合性能上的优势，我们可以得出结论：FusionFormer方法在nuScenes数据集上展现出卓越的性能，为3D检测任务提供了一种效果优秀且高效的解决方案。

一些讨论

我们这个工作的优点之一是它对多模态数据融合和时间序列信息的重要性进行了深入的研究和探讨。通过将相机和LiDAR数据进行融合，并引入时间序列信息，论文提出了一种名为FusionFormer的方法，该方法在3D检测任务中取得了出色的性能。这种综合利用多模态数据和时间序列数据的策略，能够提高检测的精度和鲁棒性，使得系统能够在复杂场景下更好地理解和预测物体的行为。

另一个优点是FusionFormer方法的直接输出特征，避免了后处理的非最大抑制（NMS）操作。这种设计简化了系统流程，提高了实时性和效率，并且有助于减少信息损失和误差传播。此外，FusionFormer还能够直接从BEV特征中输出3D检测结果，进一步简化了系统架构。

然而，论文也存在一些潜在的缺点。首先，尽管FusionFormer在实验中展现了出色的性能，但其在其他数据集或场景中的泛化能力仍需进一步验证。其次，论文可能没有充分探索模型的可解释性和推理过程，缺乏对于模型决策的解释和可视化分析。此外，论文可能没有对实验结果的统计显著性进行详细的讨论，如假设检验或置信区间分析，以确认结果的可靠性和一致性。

总体而言，这篇论文通过提出FusionFormer方法，系统地探索了多模态数据融合和时间序列信息在3D检测任务中的重要性，并在实验中取得了令人满意的结果。然而，在进一步研究中，应该考虑验证其泛化能力、加强模型的可解释性分析，并对实验结果进行更全面的统计推断。

结论

本论文提出了一种名为FusionFormer的方法，通过综合利用多模态数据融合和时间序列信息，实现了在3D检测任务中的优秀性能。FusionFormer能够直接从BEV特征中输出3D检测结果，避免了后处理的非最大抑制（NMS）操作，简化了系统架构并提高了实时性和效率。实验结果表明，FusionFormer在多模态数据和时间序列数据的融合上取得了出色的性能，在mAP和NDS等指标上超过了其他方法。然而，进一步的研究还需要验证其泛化能力、加强模型的可解释性分析，并对实验结果进行更全面的统计推断。总体而言，FusionFormer为3D检测任务提供了一种有效且高效的解决方案，具有广阔的应用前景。

原文链接;https://mp.weixin.qq.com/s/n1zoxUcnkCfzUjPeLbjnyw