如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

笔者个人理解

自动驾驶的基础任务之一是三维目标检测，而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合，又或者是毫米波雷达和相机融合，其最主要的目的就是利用点云和图像之间的互补联系，从而提高目标检测的准确度。随着Transformer架构在计算机视觉领域的不断应用，基于注意力机制的方法提高了多传感器之间融合的精度。分享的两篇论文便是基于此架构，提出了新颖的融合方式，以更大程度地利用各自模态的有用信息，实现更好的融合。

TransFusion：

主要贡献

激光雷达和相机是自动驾驶中两种重要的三维目标检测传感器，但是在传感器融合上，主要面临着图像条件差导致检测精度较低的问题。基于点的融合方法是将激光雷达和相机通过硬关联（hard association）进行融合，会导致一些问题：a）简单地拼接点云和图像特征，在低质量的图像特征下，检测性能会严重下降；b）寻找稀疏点云和图像的硬关联会浪费高质量的图像特征并且难以对齐。

因此，此论文提出一种激光雷达和相机的融合框架TransFusion，来解决两种传感器之间的关联问题，主要贡献如下：

提出一种基于transformer的激光雷达和相机的3D检测融合模型，对较差的图像质量和传感器未对齐表现出优异的鲁棒性；
为对象查询引入了几个简单而有效的调整，以提高图像融合的初始边界框预测的质量，还设计了一个图像引导查询初始化模块来处理在点云中难以检测到的对象；
不仅在nuScenes实现了先进的三维检测性能，还将模型扩展到三维跟踪任务，并取得了不错的成果。

模块详解

图1 TransFusion的整体框架

为了解决上述的图像条件差以及不同传感器之间的关联问题，提出了一个基于Transformer的融合框架——TransFusion。该模型依赖标准的3D和2D主干网络提取LiDAR BEV特征和图像特征，然后检测头上采用两层transformer解码器组成：第一层解码器利用稀疏的点云生成初始边界框；第二层解码器将第一层的对象查询与图像特征相关联，以获得更好的检测结果。其中还引入了空间调制交叉注意力机制（SMCA）和图像引导的查询初始化策略以提高检测精度。

Query Initialization（查询初始化）

LiDAR-Camera Fusion

如果一个物体只包含少量的激光雷达点时，那么只能获得相同数量的图像特征，浪费了高质量的图像语义信息。所以该论文保留所有的图像特征，使用Transformer中交叉注意机制和自适应的方式进行特征融合，使网络能够自适应地从图像中提取位置和信息。为了缓解LiDAR BEV特征和图像特征来自不同的传感器的空间不对齐问题，设计了一个空间调制交叉注意模块（SMCA），该模块通过围绕每个查询投影的二维中心的二维圆形高斯掩模对交叉注意进行加权。

Image-Guided Query Initialization（图像引导查询初始化）

图2 图像引导查询模块

该模块同时利用激光雷达和图像信息作为对象查询，就是通过将图像特征和激光雷达BEV特征送入交叉关注机制网络，投射到BEV平面上，生成融合的BEV特征。具体如图2所示，首先沿着高度轴折叠多视图图像特征作为交叉注意机制网络的键值，而激光雷达BEV特征作为查询送入注意力网络，得到融合的BEV特征，使用进行热图预测，并与仅激光雷达的热图Ŝ做平均得到最终的热图Ŝ来选择和初始化目标查询。这样的操作使得模型能够检测到在激光雷达点云中难以检测到的目标。

实验

数据集和指标

nuScenes数据集是一个用于3D检测和跟踪的大规模自动驾驶数据集，包含700、150和150个场景，分别用于训练、验证和测试。每帧包含一个激光雷达点云和六个覆盖360度水平视场的校准图像。对于3D检测，主要指标是平均平均精度(mAP)和nuScenes检测分数(NDS)。mAP是由BEV中心距离而不是3D IoU定义的，最终mAP是通过对10个类别的0.5m, 1m, 2m, 4m的距离阈值进行平均来计算的。NDS是mAP和其他属性度量的综合度量，包括平移、比例、方向、速度和其他方框属性。。

Waymo数据集包括798个用于训练的场景和202个用于验证的场景。官方的指标是mAP和mAPH (mAP按航向精度加权)。mAP和mAPH是基于3D IoU阈值定义的，车辆为0.7，行人和骑自行车者为0.5。这些指标被进一步分解为两个难度级别：LEVEL1用于超过5个激光雷达点的边界框，LEVEL2用于至少有一个激光雷达点的边界框。与nuScenes的360度摄像头不同，Waymo的摄像头只能覆盖水平方向的250度左右。

训练在nuScenes数据集上，使用DLA34作为图像的2D骨干网络并冻结其权重，将图像大小设置为448×800；选择VoxelNet作为激光雷达的3D骨干网络。训练过程分成两个阶段：第一阶段仅以激光雷达数据作为输入，以第一层解码器和FFN前馈网络训练3D骨干20次，产生初始的3D边界框预测；第二阶段对LiDAR-Camera融合和图像引导查询初始化模块进行6次训练。左图是用于初始边界框预测的transformer解码器层架构；右图是用于LiDAR-Camera融合的transformer解码器层架构。

图3 解码器层设计

与最先进方法比较

首先比较TransFusion和其他SOTA方法在3D目标检测任务的性能，如下表1所示的是在nuScenes测试集中的结果，可以看到该方法已经达到了当时的最佳性能（mAP为68.9%，NDS为71.7%）。而TransFusion-L是仅使用激光雷达进行检测的，其检测的性能明显优于先前的单模态检测方法，甚于超过了一些多模态的方法，这主要是由于新的关联机制和查询初始化策略。而在表2中则是展示了在Waymo验证集上LEVEL 2 mAPH的结果。

表1 与SOTA方法在nuScenes测试中的比较

表2 Waymo验证集上的LEVEL 2 mAPH

对恶劣图像条件的鲁棒性

以TransFusion-L为基准，设计不同的融合框架来验证鲁棒性。其中三种融合框架分别是逐点拼接融合激光雷达和图像特征（CC）、点增强融合策略（PA）和TransFusion。如表3中显示，将nuScenes数据集划分成白天和黑夜，TransFusion的方法在夜间将会带来更大的性能提升。在推理过程中将图像的特征设置为零，以达到在每一帧随机丢弃若干图像的效果，那么在表4中可以看到，在推理过程中某些图像不可用时，检测的性能会显著下降，其中CC和PA的mAP分别下降23.8%和17.2%，而TransFusion仍保持在61.7%。传感器未校准的情况也会大大影响3D目标检测的性能，实验设置从相机到激光雷达的变换矩阵中随机添加平移偏移量，如图4所示，当两个传感器偏离1m时，TransFusion的mAP仅下降0.49%，而PA和CC的mAP分别下降2.33%和2.85%。

表3 白天和夜间的mAP

表4 在不同数量的图像下的mAP

图4 在传感器未对齐情况下的mAP

消融实验

由表5 d）-f）的结果可看出，在没有进行查询初始化的情况下，检测的性能下降很多，虽然增加训练轮数和解码器层数可以提高性能，但是仍旧达不到理想效果，这也从侧面证明了所提出来的初始化查询策略能够减小网络层数。而如表6所示，图像特征融合和图像引导查询初始化分别带来4.8%和1.6%的mAP增益。在表7中，通过在不同范围内精度的比较，TransFusion与仅激光雷达的检测相比，在难以检测的物体或者遥远区域的检测的性能都得到了提升。

表5 查询初始化模块的消融实验

表6 融合部分的消融实验

表7 物体中心到自我车辆之间的距离(以米为单位)

结论

设计了一个有效且稳健的基于Transformer的激光雷达相机3D检测框架，该框架具有软关联机制，可以自适应地确定应该从图像中获取的位置和信息。TransFusion在nuScenes检测和跟踪排行榜上达到最新的最先进的结果，并在Waymo检测基准上显示了具有竞争力的结果。大量的消融实验证明了该方法对较差图像条件的鲁棒性。

DeepInteraction：

主要贡献：

主要解决的问题是现有的多模态融合策略忽略了特定于模态的有用信息，最终阻碍了模型的性能。点云在低分辨率下提供必要的定位和几何信息，图像在高分辨率下提供丰富的外观信息，因此跨模态的信息融合对于增强3D目标目标检测性能尤为重要。现有的融合模块如图1（a）所示，将两个模态的信息整合到一个统一的网络空间中，但是这样做会使得部分信息无法融合到统一的表示里，降低了一部分特定于模态的表示优势。为了克服上述限制，文章提出了一种新的模态交互模块（图1（b）），其关键思想是学习并维护两种特定于模态的表示，从而实现模态间的交互。主要贡献如下：

提出了一种新的多模态三维目标检测的模态交互策略，旨在解决以前模态融合策略在每个模态中丢失有用信息的基本限制；
设计了一个带有多模态特征交互编码器和多模态特征预测交互解码器的DeepInteraction架构。

图1 不同的融合策略

模块详解

多模态表征交互编码器 将编码器定制为多输入多输出（MIMO）结构：将激光雷达和相机主干独立提取的两个模态特定场景信息作为输入，并生成两个增强后的特征信息。每一层编码器都包括：i）多模态特征交互（MMRI）；ii）模态内特征学习；iii）表征集成。

图2 多模态表征交互模块

图3 多模态预测交互模块

实验

数据集和指标同TransFusion的nuScenes数据集部分。

实验细节 图像的主干网络是ResNet50，为了节省计算成本，在输入网络之前将输入图像重新调整为原始大小的1/2，并在训练时冻结图像分支的权重。体素大小设置为(0.075m,0.075m,0.2m)，检测范围设为X轴和Y轴是[-54m,54m]，Z轴是[-5m,3m]，设计2层编码器层和5层级联的解码器层。另外还设置了两种在线提交测试模型：测试时间增加（TTA）和模型集成，将两个设置分别称为DeepInteraction-large和DeepInteraction-e。其中DeepInteraction-large使用Swin-Tiny作为图像骨干网络，并且将激光雷达骨干网络中卷积块的通道数量增加一倍，体素大小设置为[0.5m,0.5m,0.2m]，使用双向翻转和旋转偏航角度[0°,±6.25°,±12.5°]以增加测试时间。DeepInteraction-e集成了多个DeepInteraction-large模型，输入的激光雷达BEV网格尺寸为[0.5m,0.5m]和[1.5m,1.5m]。

根据TransFusion的配置进行数据增强：使用范围为[-π/4,π/4]的随机旋转，随机缩放系数为[0.9,1.1]，标准差为0.5的三轴随机平移和随机水平翻转，还在CBGS中使用类平衡重采样来平衡nuScenes的类分布。和TransFusion一样采用两阶段训练的方法，以TransFusion-L作为仅激光雷达训练的基线。使用单周期学习率策略的Adam优化器，最大学习率1×10−3，权衰减0.01，动量0.85 ~ 0.95，遵循CBGS。激光雷达基线训练为20轮，激光雷达图像融合为6轮，批量大小为16个，使用8个NVIDIA V100 GPU进行训练。

与最先进方法比较

表1 在nuScenes测试集上与最先进方法的比较

如表1所示，DeepInteraction在所有设置下都实现了最先进的性能。而在表2中分别比较了在NVIDIA V100、A6000和A100上测试的推理速度。可以看到，在取得高性能的前提下，仍旧保持着较高的推理速度，验证了该方法在检测性能和推理速度之间实现了优越权衡。

表2 推理速度比较

消融实验

解码器的消融实验

在表3（a）中比较了多模态交互预测解码器和DETR解码器层的设计，并且使用了混合设计：使用普通的DETR解码器层来聚合激光雷达表示中的特征，使用多模态交互预测解码器（MMPI）来聚合图像表示中的特征(第二行)。MMPI明显优于DETR，提高了1.3% mAP和1.0% NDS，具有设计上的组合灵活性。表3（c）进一步探究了不同的解码器层数对于检测性能的影响，可以发现增加到5层解码器时性能是不断提升的。最后还比较了训练和测试时采用的查询数的不同组合，在不同的选择下，性能上稳定的，但以200/300作为训练/测试的最佳设置。

表3 解码器的消融实验

编码器的消融实验

从表4(a)中可以观察到:(1)与IML相比，多模态表征交互编码器（MMRI）可以显著提高性能;(2) MMRI和IML可以很好地协同工作以进一步提高性能。从表4(b)中可以看出，堆叠编码器层用于迭代MMRI是有益的。

表4 编码器的消融实验

激光雷达骨干网络的消融实验

使用两种不同的激光雷达骨干网络：PointPillar和VoxelNet来检查框架的一般性。对于PointPillars，将体素大小设置为(0.2m, 0.2m)，同时保持与DeepInteraction-base相同的其余设置。由于提出的多模态交互策略，DeepInteraction在使用任何一种骨干网时都比仅使用lidar基线表现出一致的改进(基于体素的骨干网提高5.5% mAP，基于支柱的骨干网提高4.4% mAP)。这体现了DeepInteraction在不同点云编码器中的通用性。

表5不同激光雷达主干网的评估

结论

在这项工作中，提出了一种新的3D目标检测方法DeepInteraction，用于探索固有的多模态互补性质。这一关键思想是维持两种特定于模态的表征，并在它们之间建立表征学习和预测解码的相互作用。该策略是专门为解决现有单侧融合方法的基本限制而设计的，即由于其辅助源角色处理，图像表示未得到充分利用。

两篇论文的总结：

以上的两篇论文均是基于激光雷达和相机融合的三维目标检测，从DeepInteraction中也可以看到它是借鉴了TransFusion的进一步工作。从这两篇论文中可以总结出多传感器融合的一个方向，就是探究更高效的动态融合方式，以关注到更多不同模态的有效信息。当然了，这一切建立在两种模态均有着高质量的信息。多模态融合在未来的自动驾驶、智能机器人等领域都会有很重要的应用，随着不同模态提取的信息逐渐丰富起来，我们能够利用到的信息将会越来越多，那么如何将这些数据更高效的运用起来也是一个值得思考的问题。