RCBEVDet++：迈向高精度雷达-摄像头融合3D感知网络！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

感知周围环境是自动驾驶的基本任务。为了获得高度精确和鲁棒的感知结果，现代自动驾驶系统通常采用多模态传感器，如LiDAR、多视角摄像头和毫米波雷达，来收集全面的环境数据。

在这些传感器中，雷达与摄像头多模态感知系统尤其受到青睐，因为其具有出色的传感能力和成本效益。然而，毫米波雷达与多视角摄像头传感器之间的巨大模态差异给从这两种传感器融合信息带来了显著的挑战。

为了解决这个问题，本文提出了RGEVDet，一种雷达与摄像头3D目标检测框架。具体而言，RGEVDet基于现有的基于相机的3D目标检测模型，辅以专门设计的雷达特征提取器RadarBEVNet和雷达与摄像头交叉注意力多层融合（CAMF）模块。

首先，RadarBEVNet使用双流雷达 Backbone 网络和Radar Cross Section（RCS）感知的BEV编码器，将稀疏的雷达点编码为密集的鸟瞰视图（BEV）特征。其次，CAMF模块利用变形注意力机制将雷达和摄像头的BEV特征对齐，并采用通道和空间融合层来融合这些多模态特征。

为了进一步提高RGEVDet的性能，作者提出了RGEVDet++，该方法在稀疏融合的CAMF上进行改进，支持基于 Query 的多视角摄像头感知模型，并适应于更广泛的感知任务。

在nuScenes数据集上的大量实验表明，作者的方法与现有的基于相机的3D感知模型无缝集成，并在各种感知任务上提高它们的性能。

此外，作者的方法在3D目标检测、BEV语义分割和3D多目标跟踪任务中实现了最先进的重叠雷达与摄像头融合结果。值得一提的是，利用ViT-L作为图像 Backbone ，RGEVDet++在无需测试时间增强或模型集成的情况下，实现了3D目标检测的72.73 NDS和67.34 mAP。

源代码和模型将在https://github.com/VDiGRU/ROGEVDet。

1 Introduction

自动驾驶旨在通过开发无需人工干预的系统来提高交通的安全性、效率和便利性[2, 3]。对于这些系统来说，的一个重要挑战是像人类一样全面感知周围环境，这对于精确轨迹预测和运动规划至关重要。为了实现这一点，现代自动驾驶系统主要采用三种传感器，例如多视图摄像头、毫米波雷达和激光雷达，以收集周围环境的信息。

在这些类型的传感器中，激光雷达传感器提供详细的几何信息，显著提高了感知过程，导致最佳性能[4]。然而，高质量激光雷达传感器的价格昂贵，增加了制造成本。相比之下，多视图摄像头和毫米波雷达传感器为制造商和用户提供了更经济的选择。与激光雷达相比，多视图摄像头捕获了复杂的细节，如颜色和纹理，提供了高分辨率的语义信息，而毫米波雷达在测距和速度估计方面具有优势，在多种天气和照明条件下都能可靠工作[5] [6]。此外，4D毫米波雷达技术的进步逐渐克服了稀疏雷达点的限制，成为潜在的替代方案[8]。尽管这些具有优势，但激光雷达与摄像头或雷达基于的感知模型之间仍存在明显的性能差距。桥接这个差距的实用且有效的策略是将毫米波雷达与多视图摄像头集成在一起，这可以互相补充，从而实现更全面和可靠的环境感知。

为了融合雷达和图像数据，近年来[9, 10]主要采用将多视图图像特征和雷达特征投影到鸟瞰视角（BEV）的BEVFusion Pipeline [4]。然而，像BEVFusion所采用的简单融合技术（如 ConCat 或求和）无法解决多视图图像和雷达输入之间的空间对齐问题。此外，大多数雷达-摄像头融合方法[12, 13, 14]仍使用原本用于激光雷达点（如PointPillars）的编码器来提取雷达特征。虽然这些方法可以产生令人称赞的结果，但它们所使用的特定激光雷达编码器并没有考虑到雷达的独特特性，如雷达横截面（RCS），导致性能不佳。

在本文中，作者提出了一种名为RGEVDet的新框架，用于将雷达和相机的特征在BEV空间中有效地融合在一起，进行3D目标检测任务。针对雷达输入的独特特性，作者专门设计了一个名为RadarBEVNet的方案，以实现高效的雷达BEV特征提取。具体而言，RadarBEVNet首先通过双流雷达解码器将雷达输入编码为不同的点对基和Transformer基表示。此外，作者还实现了一个注入和提取模块，将这两个表示整合在一起。接下来，这些特征通过RCS感知的散射转换为BEV特征，其中RCS被用作目标大小的先验和分配点特征到BEV空间的任何位置。除了RadarBEVNet之外，RCBEVDet还集成了一个交叉注意力多层融合模块（CAMF），以在BEV空间内实现雷达和相机的特征融合。CAMF使用多模态交叉注意力自适应校正两种BEV特征之间的坐标不匹配，然后应用通道和空间融合层来进一步巩固多模态特征，提高整体检测性能。

为了充分利用RCBEVDet的功能，作者升级了CAMF模块，支持稀疏融合以支持基于 Query 的多视相机的感知模型。此外，作者还扩展了RCBEVDet的功能，包括3D目标检测、BEV语义分割和3D多目标跟踪等更广泛的感知任务。这个增强的框架被称为RCBEVDet++。具体而言，为了适应基于 Query 的多视相机的感知方法，作者用与原始相机BEV特征不同的基于目标3D坐标的相机 Query 进行替换。这开发了一种新的 Query 组件在作者的多模态交叉注意力机制中。接下来，作者进行了一个投影和采样过程，其中，相机目标 Query 被投影到BEV空间，并与相应的雷达特征进行匹配，以形成雷达目标 Query 。然后，作者使用可变形交叉注意力对多模态 Query 进行对齐。最后，调整后的多模态 Query 被 ConCat 并送入一个简单的线性层进行有效的特征融合，从而在扩展的任务范围内提高感知性能。

本文的主要贡献如下：

本文介绍了一种名为RCBEVDet的高度精确和鲁棒的3D目标检测雷达-摄像头融合框架。该框架包括RadarBEVNet用于雷达BEV特征提取和Cross-Attention Multi-layer Fusion Module (CAMF)用于在BEV空间中进行鲁棒雷达-摄像头特征融合。
基于RCBEVDet，作者进一步提出了RCBEVDet++感知框架，该框架扩展了CAMF模块以容纳基于 Query 的多视摄像头感知模型，并充分发挥了RCBEVDet在各种3D感知任务中的全部潜力。
在nuScenes基准测试中，RCBEVDet提高了基于摄像头的3D目标检测器的性能，并针对传感器故障情况展示了鲁棒性。此外，RCBEVDet++进一步增强了基于摄像头的感知模型，在雷达-摄像头多模态3D目标检测、BEV语义分割和3D多目标跟踪任务中实现了最先进的结果。

2 Related Work

Camera-ased 3D Perception

三维目标检测、BEV语义分割和三维多目标跟踪是自动驾驶的三个基本感知任务。目前，许多三维多目标跟踪方法通常采用跟踪-通过检测框架，该框架利用三维目标检测的结果来关联物体。这些跟踪方法关注的是物体匹配，而不仅仅是高效处理输入图像。此外，更准确的检测结果可以带来更高的跟踪性能。因此，在这一部分，作者将主要讨论处理多帧多视角摄像头输入的更丰富的三维目标检测和BEV语义分割方法。具体来说，三维目标检测旨在预测三维物体的位置和类别，而语义分割则整合了车辆识别、语义车道地图预测和可行驶区域估计任务。然而，由于三维信息的不足，在三维空间中使用摄像头图像检测物体和分割地图具有挑战性。近年来，许多研究已经为解决这个问题做出了很大的努力，包括从图像中推理深度[21]，利用几何约束和形似先验[22]，设计特定的损失函数[23, 24]，以及探索联合三维检测和重构优化[25]。最近，多视角传感器已成为自动驾驶车辆的流行配置，为提供更全面的环境信息。多视角相机数据集的出现[26, 27]导致了多视角三维目标检测和BEV语义分割方法的发展，可以大致分为基于几何的方法和基于 Transformer 的方法两种。

2.1.1 Geometry-based Methods

基于几何的多视三维目标检测和BEV语义分割主要利用深度预测网络来估计图像的深度分布。这使得可以将从提取的2D图像特征转换为3D相机 Frustum 特征。然后，通过 Voxel 池化等操作在 Voxel 或BEV空间构建特征。

具体而言，Lift-Splat-Shoot（LSS）[28] 首次利用轻量级深度预测网络明确估计每个图像的深度分布和上下文向量。深度和上下文向量的外积决定了沿视角射线在3D空间中每个点上的特征，从而实现了将图像特征有效转换为BEV特征。在 LSS 的基础上，FIERY[38] 引入了一个基于BEV的未来实例预测模型，能够预测动态代理的未来实例及其运动。BEVDet[16] 将视角变换技术从 LSS 扩展到使用BEV特征检测3D物体。此外，BEVDepth[29] 利用 LIDAR 的显式深度信息作为监督来增强深度估计，并将摄像机的外部参数作为深度估计的先验参数。基于 BEVDet，BEVDet4D[30] 在历史帧之间对BEV特征进行空间对齐，显著提高了检测性能。此外，SOLOFusion[39] 提出将高分辨率短期和低分辨率长期特征融合，提高具有长期时间输入的3D检测的推理速度。

2.1.2 Transformer-based Methods

基于Transformer的方法利用注意力机制将预定义的 Query 投影到多个视图图像平面上，使用坐标变换矩阵，并随后更新 Query 特征和多视图图像特征。具体来说，开创性工作DETR3D [31]使用Transformer解码器进行3D目标检测，发展了一种自顶向下框架，并利用一套一套的损失来衡量 GT 值和预测之间的差异。

类似地，CVT [35]引入了一个简单的BEV语义分割基准，该基准使用交叉视图Transformer架构。在这一点之后，BEVformer [17]构建了密集的BEV Query ，并采用了多尺度变形注意力，将多视图图像特征映射到这些密集 Query 。此外，PETR [32]通过将来自3D坐标的显式位置信息生成多视图图像特征。在PETR的基础上，PETRv2 [40]将时间融合跨多个帧集成，并扩展3D位置嵌入，具有时间感知建模。

此外，Sparse4D [41]为每个3D Anchor 点分配和投影多个4D关键点，以生成不同的视图、 aspect ratio 和时间戳特征，然后将这些特征分层融合以提高整体图像特征表示。

Sparse4Dv2 [42]扩展了Sparse4D，采用了更高效的时间融合模块，并引入了摄像机参数编码和密集深度监督。最近，StreamPETR [34]利用稀疏目标 Query 作为中间表示来捕获时间信息，并采用了自适应尺度自注意力模块和自适应空间-时间采样模块的SparseBEV [33]，以动态捕获BEV和时间信息。

Radar-camera 3D Perception

毫米波雷达由于其低成本、长距离感知、多普勒速度测量以及对抗恶劣天气条件的鲁棒性，在自主车辆中得到了广泛应用。尽管毫米波雷达数据通常包括距离、角度和速度信息，但在测量目标的俯仰角方面表现相对较差。此外，毫米波雷达数据固有的稀疏性和缺乏语义信息，对纯雷达基于的3D感知提出了挑战。因此，毫米波雷达通常被用来增强多模态3D感知系统的性能，作为辅助模式。

图1：RCEVDet的整体 Pipeline 。首先，通过图像编码器处理多视图图像并提取特征，然后使用视图转换模块将这些特征转换为图像BEV特征。同时，雷达点云通过提出的RadarBEVNet编码为雷达BEV特征。接下来，图像和雷达BEV特征使用Cross-Attention Multi-layer Fusion模块动态对齐和聚合。最后，将融合后的多模态语义丰富的BEV特征用于3D目标检测任务。

近年来，由于多视图摄像头和毫米波雷达传感器在3D感知方面的互补性质，其组合引起了广泛关注。具体来说，RadarNet [43]引入了雷达-摄像头融合的多级融合 Pipeline ，以提高远程目标检测的准确性和减少速度误差。CenterFusion [14]利用关键点检测网络从图像生成初始的3D检测结果，并将基于柱子的雷达关联模块用于通过将雷达特征与相应的检测框链接来细化这些结果。类似地，MVFusion [44]实现了摄像头和毫米波雷达之间的语义对齐，增强了这两者之间的交互。

此外，Simple-BEV [45]调查了多传感器BEV感知系统的体系结构设计和超参数设置。CRAFT [12]提出了一种使用Soft-Polar-Association和Spatio-Contextual Fusion Transformer的 Proposal 级融合框架，用于高效地在摄像头和毫米波雷达之间交换信息。RADIANT [46]开发了一个网络来估计雷达回波和物体中心之间的位置偏移，并利用雷达深度信息来增强摄像头的特征。近年来，CRN [13]为多视图转换生成雷达增强图像特征并采用雷达深度信息，并利用交叉注意机制解决雷达和摄像头传感器之间的空间不对齐和信息不匹配问题。

RCFusion [9]利用雷达PillarNet [47]生成雷达伪图像，并提出了一种加权融合模块有效地将雷达和摄像头的BEV特征进行融合。

BEVGuide 基于CVT 框架并提出了一种基于BEV的传感器无关的关注模块，有助于BEV表示学习和理解。BEVCar [37]引入了一种创新的雷达-摄像头融合方法，用于BEV图和目标分割，并采用基于注意的图像提升策略。

RadarBEVNet

先前雷达-摄像头融合方法通常使用设计用于激光雷达点云的雷达编码器，如PointPillars 。相比之下，作者引入了RadarBEVNet，专为高效雷达BEV特征提取而设计。RadarBEVNet通过双流雷达 Backbone 网络和RCS感知的BEV编码器将稀疏雷达点编码为密集的BEV特征，其中RCS感知的BEV编码器利用RCS作为一个物体大小的先验，将单个雷达点的特征分散到BEV空间中的多个像素中。

3.1.1 Dual-stream radar backbone

双流式雷达 Backbone 结构包含两部分：基于点的 Backbone 结构和基于 Transformer 的 Backbone 结构。

基于点的 Backbone 结构专注于学习局部雷达特征，而基于 Transformer 的 Backbone 结构捕获全局信息。

对于点型的 Backbone 结构，作者采用类似于PointNet[49]的架构。如图2a所示，点型的 Backbone 结构由S个块组成，每个块中包含一个多层感知机（MLP）和一次池化操作。具体而言，输入雷达点特征f首先通过MLP增加其特征维数。然后，将高维雷达特征送入MaxPool层，并使用残差连接。整个过程可以形式化为以下公式：

至于基于 Transformer 的 Backbone 结构，它由S个标准 Transformer 块[50, 51]组成，其中包含注意力机制、前馈网络和归一化层，如图2b所示。由于自主驾驶场景的广泛范围，直接使用标准自注意力优化模型可以具有挑战性。为了应对这个问题，作者提出了一种距离调制自注意力机制（DMSA），通过在早期训练迭代阶段聚合相邻信息来促进模型收敛。具体而言，给定N个雷达点的坐标，作者首先计算所有点之间的对距离D∈R^{N×N}。

实际上，高斯样权重图G赋予点附近的位置高权重，远离点的位置低权重。作者可以使用生成的权重G调制注意力机制，如下公式所示：

这里d表示输入特征维数。

在双流雷达 Backbone 结构中，作者还引入了密集连接的多尺度特征金字塔以捕捉不同空间范围的信息，并将点型的 Backbone 结构与基于 Transformer 的 Backbone 结构相结合：

作者在多个数据集（包括PASCAL VOC 2007数据集和其他几个数据集）上对提出的方法进行了验证。实验结果表明，与基于单流的信息融合方式相比，双流雷达 Backbone 结构可以更好地提取局部雷达特征并利用全局信息。

为了增强来自两种不同后置的雷达特性的交互，作者引入了注入和提取模块，该模块基于交叉注意力，如图3所示。此模块应用于两种后置的每个块。

3.1.2 RCS-aware BEV encoder

当前的雷达BERV编码器通常将点特征散射到BERV空间，基于点的3D坐标。然而，这将导致一个稀疏的BERV特征图，其中大多数像素都包含零值。这种稀疏性使得一些像素有效地聚合特征变得困难，可能会影响检测性能。一个解决方案是增加BERV编码器层数，但这也可能导致背景特征将小目标特征平滑掉。为了解决这个问题，作者提出了一种称为RC-aware的BERV编码器。雷达横截面积（RCS）是通过雷达测量目标的可检测性。例如，较大的物体通常会产生更强的雷达波反射，导致更大的RCS测量。因此，RCS可以提供一个物体的尺寸的粗糙估计。

RC-aware BERV编码器的关键设计是RC-aware散射操作，它利用RCS作为目标的尺寸的先验估计。利用这个先验，作者提出的散射操作允许单个雷达点上的特征被散射到BERV空间中的多个像素，而不是局限于一个像素，如图4所示。

Cross-Attention Multi-layer Fusion Module

在本节开始介绍交叉注意力多层融合模块

3.2.1 Multi-modal Feature Alignment with Cross-Attention

3.2.2 Channel and Spatial Fusion

4 Rcbevdet++: Radar-camera sparse fusion for 3D perception

图6说明了，为了充分挖掘RcbeVDet的潜力，作者将CAMF模块扩展以支持稀疏融合与基于 Query 的多视点相机感知模型，这种方法比基于BEV的方法获得了更高的准确度。此外，作者将RcbeVDet应用到了更多的感知任务，包括3D目标检测，BEV语义分割和3D多目标跟踪。为了区分这个更新的RcbeVDet版本与原始版本，作者特意将其命名为RcbeVDet++。

Sparse Fusion with CAMF

图7所示，作者采用CAMF的稀疏融合方法将密集雷达BEV特征和图像稀疏特征进行融合。具体而言，作者首先用图像稀疏特征替换原始图像BEV特征。然后，作者执行一个投影和抽样过程，使用3D绝对位置将每个图像稀疏特征与雷达特征关联。更具体地说，作者将3D绝对位置转换为BEV，并用双linear插值采样相应的雷达特征，以获得稀疏雷达特征。接下来，作者利用MLP组成的位置编码网络将3D绝对位置转换为3D位置嵌入，并将其添加到多模态 Query 中。然后，为了对齐多模态不匹配，作者采用可变形交叉注意力针对稀疏图像特征和密集雷达BEV特征，以及针对稀疏雷达特征和稀疏图像特征采用简单的交叉注意力。

作者的RCBEVDet++可以生成高质量的多模态特征，这些特征可以用于各种3D感知任务，包括3D目标检测，3D多目标跟踪和BEV语义分割。为了预测3D目标的边框，作者采用 Query 引导的Transformer解码器[33]，并在每个Transformer解码器层中应用CAMF模块进行稀疏融合。

然后，作者采用跟踪检测框架来进行3D多目标跟踪任务。具体而言，作者执行基于速度的贪婪距离匹配，即对每个目标在多个帧中计算中心距离，使用预测的加速度补偿，并以贪心方式为具有最小中心距离的目标分配相同的ID。

对于BEV语义分割，作者将多模态特征转换为密集BEV特征，因为这将需要具有类别密度的密集BEV映射。作者遵循CVT[35]解码器架构来有效地解码密集BEV特征到具有语义表示的不同图。此外，作者采用多个头来执行不同类型的BEV语义分割任务，每个头处理一个任务，例如车辆分割。最后，作者使用焦损失[54]并采用Sigmoid层作为训练的监督。

5 Experiments

在本节中，作者通过大量实验评估 RCBEVDet 和 RCBEVDet++。在第 5.1 节中，作者详细介绍了实验设置。在第 5.2 节中，作者将作者的方法与最先进的州界方法在三个任务中进行了比较，这些任务分别是即三维目标检测、BEV语义分割和 3D 多目标跟踪。在第 5.3 节中，作者进行了一项广泛的 Ablation 研究，以调查 RCBEVDet 和 RCBEVDet++ 中的单个组件。在第 5.4 节中，作者讨论了 RCBEVDet++ 在 BEV 语义分割中的任务权衡。在第 5.5 节中，作者展示了 RCBEVDet 的鲁棒性。在第 5.6 节中，作者展示了作者方法的可建模性。

Implementation Details

5.1.1 Datasets and Evaluation Metrics

作者在一项流行的自动驾驶大规模评估标准（nuScenes[26]）上进行了实验，该标准包括美国波士顿和新加坡的1000个驾驶场景。该标准包含850个场景用于训练和验证，以及150个场景用于测试。作者在验证和测试集上报告结果，并与最先进的算法进行比较，同时在验证集上评估了消融结果。

对于3D目标检测，nuScenes提供了一组评估指标，包括平均精度（mAP）和五个真阳性（TP）指标：ATE，ASE，AOE，AVE和AAE，分别衡量了转换、缩放、方向、速度和属性错误。总体性能由nuScenes检测得分（NDS）衡量，该得分整合了所有错误类型：

对于BEV语义分割，作者使用所有分割类别之间的平均交点（mIoU）作为指标，遵循LSS[28]的设置。

对于3D多目标跟踪，作者遵循nuScenes的官方指标，使用了各种召回阈值下的平均多目标跟踪精度（AMOTP）和平均多目标跟踪准确率（AMOTA）。具体来说，AMOTA定义如下：

5.1.2 Architecture and Training Details

本文采用BEVDepth [29]、BEVPoolv2 [55]、SparseBEV [33]作为RCBEVDet和RCBEVDet++的摄像机流。对于BEVDepth，作者遵循BEVDet4D [30]来累积多帧的中间BEV特征，并添加一个额外的BEV编码器来聚合这些多帧的BEV特征。对于雷达，作者累积多扫雷达点，并以RCS和多普勒速度作为输入特征，与GRIFNet [56]和CRN [13]相同的方式。作者将双流雷达骨架中 stages（阶段）的数量设置为3。

对于三维目标检测 Head ，作者使用CenterPoint [57]中的中心 Head 进行RCBEVDet，并使用SparseBEV [33]中的稀疏 Head 进行RCBEVDet++。在BEV语义分割 Head ，作者为每个任务采用单独的分割 Head 。对于三维多目标跟踪，作者遵循CenterPoint，以贪心方式跟踪多帧中的目标中心。

作者的模型分为两阶段训练。第一阶段，作者根据标准实现 [29, 33]训练基于摄像机的模型。第二阶段，作者训练雷达-摄像机融合模型。摄像机流的权重从第一阶段继承，并在第二阶段中冻结摄像机流的参数。所有模型使用AdamW [58]优化器训练12个周期。为了防止过拟合，作者从图像旋转、裁剪、缩放和翻转以及雷达水平翻转、水平旋转和坐标缩放等方面应用了各种数据增强。

Comparison with State-of-the-Art

作者将作者的方法与当前最先进的基于摄像头的和雷达-摄像头多模态方法进行了比较，应用于三个任务：3D目标检测，BEV语义分割，和3D多目标跟踪。

5.2.1 3D Object Detection

作者在表格I和II中分别提供了在val集和测试集上的3D目标检测结果。

如表1所示，RCBEVDet在各种backbone上超越了之前的雷达-摄像头多模态3D目标检测方法。此外，基于SparseBEV，RCBEVDet++比CRN提高了4.4 NDS，展示了作者融合方法的有效性。另外，与之前的最佳方法相比，RCBEVDet和RCBEVDet++将速度误差降低了14.6%，证明了作者在利用雷达信息方面的方法效率。

在测试集上，使用V2-99 Backbone 时，RCBEVDet++将SparseBEV Baseline 提高了5.1 NDS和7.0 mAP，并超越了其离线版本（使用未来帧）。值得一提的是，使用较小V2-99 Backbone 的RCBEVDet++与StreamPETR和Far3D使用较大 Backbone Vit-L的性能相当。此外，使用较大Vit-L Backbone 的RCBEVDet++在无测试时数据增强的情况下实现了72.7 NDS和67.3 mAP，为nuScenes上的雷达-摄像头3D目标检测设立了新的最先进结果。

5.2.2 BEV Semantic Segmentation

在Table III的val集上，作者将作者的方法与最先进的BEV语义分割方法进行比较。采用ResNet-101 Backbone 网，RCBEVDet++在"Drivable Area"类别的性能上比CRN有0.6的IoU优势，同时也比BEVGuide在"Lane"类别的性能上有了6.3的IoU优势。在所有任务的综合评估中，RCBEVDet++达到了惊人的62.8 mIoU，比之前的最佳结果提高了1.8 mIoU。这些结果表明了作者在处理BEV语义分割任务时的方法的有效性。

state-of-the-art的性能，mIoU达到62.8，比之前的最佳结果提高了1.8 mIoU。这些结果展示了作者的方法在处理BEV语义分割任务上的有效性。

5.2.3 3D Multi-Object Tracking

在表4中，作者总结了在nuScenes测试集上的3D多目标跟踪结果。由于作者方法在估计物体位置和速度方面的高精度，RGEVDet++同时实现了最佳的AMOTA和AMOTP，与最先进的方法相比。

Ablation Studies

作者对所提出的方法的各个设计选择进行了评估。为了简便起见，作者对3D检测任务进行了评估。所有结果都在nuScenes验证集上得到，使用了ResNet-50 Backbone 网络，图像输入大小为256X704，BEV大小为128X128，除非另有说明。

5.3.1 Main Components

在本研究中，作者对第三节中的主要组成部分进行实验，以便评估它们的有效性，包括RadarBEVNet和CAMF。具体来说，如表5所示，作者逐步向baseline BEVDepth添加组件以创建RGEVDet。首先，基于仅使用相机的模型，作者利用CRN [13]中采用PointPillar作为雷达背骨的单雷达和相机的3D目标检测 Baseline 。该 Baseline 雷达-相机检测器 achieve 53.6 NDS和42.3 mAP，相较于仅使用相机的检测器提高了1.7 NDS和1.8 mAP。接下来，将PointPillar替换为提出的RadarBEVNet，产生了2.1 NDS和3.0 mAP的改进，证明Radar-BEVNet的雷达特征表示能力很强。此外，整合CAMF将3D检测性能从55.7 NDS提高到56.4 NDS。此外，作者遵循Hop [66]的方法，引入额外的多帧损失，称为Temporal Supersonic，从而实现0.4 NDS的改进和0.3 mAP的降低。

总的来说，作者观察到每个组成部分都持续地提升了3D目标检测性能。同时，结果表明多模块融合可以显著提升检测性能。

5.3.2 RadarBEVNet

表6中展示了与RadarBEVNet设计相关的实验结果，包括双流雷达 Backbone 网络和了解目标散射截面(RCS)的BEV编码器。具体而言，使用PointPillar作为雷达 Backbone 的基础模型实现了54.3 NDS和42.6 mAP。将了解目标散射截面的BEV编码器集成到模型中，使其在3D目标检测方面的性能提高了1.4 NDS和1.9 mAP，证明了所提出的了解目标散射截面的BEV特征重建的有效性。此外，作者发现直接将基于Transformer的 Backbone 与BEV Backbone 相结合，其性能仅略有提高。这可以归因于基于点和小Transformer Backbone 分别对雷达点进行单独处理，它们各自独特的雷达特征表示缺乏有效的交互。为了解决这个问题，作者引入了注入和提取模块，从而提高了0.6 NDS和0.8 mAP的性能。

此外，作者在不同的输入模式下，将所提出的RadarBEVNet与PointPillar进行了比较。如表7所示：

5.3.3 Cross-attention Multi-layer Fusion (CAMF)

在本研究中，作者对CAMF模块进行了消融实验，该模块包括用于对多模态特征进行对齐的可变形交叉注意力机制以及用于BEV特征融合的通道和空间融合模块，如表8所示。具体而言，使用来自BEVfusion[4]的融合模块的基准模型在融合模块上获得了55.7 NDS和45.3 mAP。当引入可变形交叉注意力机制进行多模态BEV特征对齐时，3D检测性能从55.7 NDS和45.3 mAP提高到56.1 NDS和45.5 mAP。这突显了交叉注意力机制在跨模态特征对齐的有效性。此外，作者注意到，在BEVfusion[4]的单层融合之外引入了通道和空间融合模块进行BEV特征融合，性能提高了0.3 NDS和0.1 mAP。这表明，通道和空间多层融合提供了更好的多模态BEV特征。

5.3.4 Sparse Fusion with CAMF

九表展示了作者使用CAMF的稀疏融合的消融结果。九表的第一行指的是稀疏BEV Baseline 。仅采用变形注意机制将雷达BEV特征与图像稀疏特征对齐，得到的性能提升为1.2 NDS和2.3 mAP。在添加雷达 Query 样本进行多模态特征对齐后，进一步提升了检测性能2.4 NDS和4.2 mAP。此外，作者观察到，用非参数编码（即正弦位置编码）替代可学习的位编码，可以提升结果1.9 NDS和1.9 mAP。最后，与RCBEVDet中的CAMF相比，九表中的线性融合在MLP的层叠融合上超过了多层融合。这是因为BEV特征是二维密集特征，需要空间和通道的融合；而稀疏 Query 特征是一维特征，因此，线性融合层是足够的。

Task Trade-off in BEV semantic segmentation

在nuScenes中，BEV语义分割需要完成三个任务，包括车辆、可行驶区域和车道 segmentation。为了在这三个任务之间实现最佳平衡，作者调整了三个任务的损失权重，并将其结果显示在表10中。作者发现，为每个任务分配相等的损失权重得到57.7 mIoU。随着车辆和车道的损失权重逐步增加，同时降低可行驶区域的损失权重，分割性能首先从57.7 mIoU增加到59.5 mIoU，达到峰值，然后下降到58.9 mIoU。在车辆、可行驶区域和车道分别采用400、80和200的损失权重时，最佳任务权衡实现。进一步增加车辆和车道的损失权重可能会损害三个任务的所有分割性能。

Analysis of Robustness

5.5.1 Sensor Failure

为了分析传感器故障场景下的鲁棒性，作者随机删除图像或雷达输入进行评估。在本实验中，作者采用dropout训练策略作为数据增强，用于训练RCBEVDet，并报告CRN [13]中的_Car_类mAP。具体来说，RCBEVDet在所有传感器故障情况下都优于CRN和BEVFusion，_Car_类的mAP更高。值得注意的是，CRN在三种雷达传感器故障案例中的mAP分别下降了4.5、11.8和25.0，而RCBEVDet仅出现0.9、6.4和10.4 mAP的下降。

这些结果强调了所提出的交叉注意力模块通过动态对齐增强了BEV特征的鲁棒性。

5.5.2 Modal Alignment

为了进一步展示CAMF与雷达校正的效果，作者以随机扰动的方式对雷达输入的x轴和y轴坐标进行操作。具体而言，作者将x轴和y轴坐标每个雷达点的噪声均匀地从-1到1中采样。如表12所示，RCBEVDet在噪声雷达输入下仅降低1.3 NDS和1.5 mAP，而CRN降低2.3 NDS和5.1 mAP。此外，作者通过图8可视化了CAMF如何解决雷达偏移的问题。如图8所示，许多雷达特征与 GT 框之间的位置存在偏差。利用CAMF，这些雷达特征得以在真实框内重新对齐，从而有效地校正了雷达的偏移问题。

5.5.3 Comparison with CRN

CRN [13] 也利用可变形交叉注意力来解决雷达-相机的匹配问题。表11 和表12 的结果表明，作者的 CAMF 比 CRN 中提出的多模态可变形交叉注意力模块（MDCA）更鲁棒。为了进一步区分作者的方法，作者提出：

Model Generalization

RCBEVDet采用双分支架构将雷达和多视角相机融合，并将多视角相机基础方法集成到该模型中，从而提高特征表示。为了证明RCBEVDet模型的泛化能力，作者在3D目标检测框架中分别使用了不同的 Backbone 网络和检测器设计进行实验。

5.6.1 Generalization for Backbone Architectures

为了证明RCBEVDet在backbone架构上的模型泛化能力，作者在BEVDepth上进行了实验，包括使用基于CNN和Transformer的多种backbone架构。如表13所示，作者的方法在不同backbone上的 Baseline 性能可提高3.8~4.9 NDS和4.8~10.2 mAP。此外，对于大小不同的相同类型的backbone结构（例如，ResNet-18和ResNet-50），RCBEVDet可以实现一致的性能提升4.9 NDS。

5.6.2 Generalization for 3D Detector Architecture

作者通过将作者的方法集成到各种主流的多视图摄像头基的3D目标检测器中，包括基于LSS的方法（例如，BEVDet和BEVDepth）和基于 Transformer 的方法（例如，StreamPETR和SparseBEV），来评估检测器的架构通用性。这些方法代表了各种检测器设计。如表14所示，通过将雷达特征进行融合，作者的方法提高了所有流行的多视图摄像头基3D目标检测器的性能。具体而言，对于基于LSS的方法，RCBEVDet对BEVDet的5.6 NDS和4.9 NDS进行了改进。

表9： 带噪声雷达输入的雷达-摄像头多模态对齐。BEVDepth，分别。对于基于 Transformer 的方法，RCBEVDet++在NDS方面获得相似的性能改进，即分别提高了StreamPETR和SparseBEV的5.6 NDS和5.9 NDS。值得注意的是，与基于LSS的方法相比，基于 Transformer 的方法得到的mAP改进更多。原因是基于LSS的方法通常使用LiDAR点提供的深度监督进行更准确的3D位置预测，而基于 Transformer 的方法可以隐式地学习3D位置。因此，基于 Transformer 的方法可以从雷达特征中获得更多的深度信息。总体而言，这些结果表明作者的方法在各种3D目标检测器上的检测器架构通用性。

6 Conclusion

在本文中，作者首先介绍了RCBEVDet，这是一个雷达-摄像头融合3D检测器。

它包括一个现有的基于摄像头的3D检测模型，一个专门设计的雷达特征提取器，以及CAMF模块，用于对齐和融合雷达-摄像多模态特征。RCBEVDet在多个backbone上改善了各种基于摄像头的3D目标检测器性能，并在nuScenes数据集上展示了对抗传感器故障情况的强大鲁棒性能力。

为了发挥RCBEVDet的潜力，作者提出了RCBEVDet++，它将CAMF模块扩展到支持基于 Query 的多视相机感知模型，实现稀疏融合，并适应更多的感知任务，包括3D目标检测、BEV语义分割和3D多目标跟踪。

在nuScenes数据集上的大量实验表明，RCBEVDet++进一步提高了基于相机的感知模型性能，并在这三个感知任务上实现了新的最先进的雷达-摄像头多模态结果。

值得注意的是，无需使用测试时增强或模型集成，RCBEVDet++取得了ViT-L图像backbone的3D目标检测72.73 NDS和67.34 mAP。

RCBEVDet++：迈向高精度雷达-摄像头融合3D感知网络 ！