写在前面&笔者的个人理解
自动驾驶技术是现代交通革命的前沿,备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件,以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础,主要侧重于 3D目标检测和语义占用预测任务。3D 目标检测使用 3D 边界框来定位场景中的前景目标并预测类别和速度等属性,属于稀疏场景表示。
相比之下,语义占用使用细粒度体素表示来捕捉场景的几何和语义特征,这是一种密集场景表示形式。为了完成这些任务,通常使用摄像头、激光雷达和毫米波雷达等传感器来收集环境数据作为输入。在这些传感器中,LiDAR 采用飞行时间 (TOF) 原理,发射和接收激光束以生成密集点云,提供环境的高精度几何表示。然而,LiDAR 易受恶劣天气影响,且成本高昂。相比之下,摄像头和毫米波雷达更具成本效益,适合大规模部署。摄像头可以高分辨率捕捉丰富的颜色和纹理信息,但缺乏深度信息,容易受到天气干扰。
另一方面,毫米波雷达发射电磁波来探测目标距离、多普勒和散射信息,从而能够抵御天气条件。4D 成像雷达是传统毫米波雷达的一项进步,它不仅包含额外的高度信息,而且还提供比传统 2 + 1D雷达更高分辨率的点云。最近的研究表明,它在各种下游任务中具有相当大的前景。然而,与激光雷达相比,它的点云仍然稀疏且嘈杂。因此,跨模态融合对于有效弥补这些缺点至关重要,强调了整合来自摄像头和4D雷达的信息的必要性。
近年来,尤其是随着4D雷达数据集的出现,4D 雷达和摄像机融合研究在感知领域显示出巨大的潜力。目前,大多数主流融合技术都采用BEV架构,将原始传感器输入转换为 BEV 特征进行融合。对于占用预测任务,大多数研究集中在以视觉为中心或视觉和 LiDAR 融合上,因为占用预测任务需要细粒度的体素表示和语义信息。传统雷达缺乏高度信息,不适合 3D 占用预测。相比之下,4D 雷达通过访问高度信息和更高分辨率的点云提供了新的可能性。此外,将3D目标检测和占用预测作为两个关键感知任务集成在统一的多任务框架内,可以优化计算资源和效率,带来实质性的效益。
因此,在本文中我们提出了首个将多视角相机和4D雷达点云融合的统一框架Doracamom,同时处理3D目标检测和语义占用预测任务。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 数据集上进行的大量实验表明,Doracamom在两个任务中都取得了最先进的性能,为多模态 3D 感知建立了新的基准。
文章链接:https://arxiv.org/abs/2501.15394;
网络模型结构&技术细节
在详细介绍了本文提出的算法模型技术细节之前,下图展示了我们提出的Doracamom算法模型的整体网络结构,如下图所示。
整体而言,多视角图像和 4D 雷达点云被输入到摄像头和 4D 雷达编码器中,分别提取图像 2D 特征和 4D 雷达 BEV 特征。然后将这些特征传递给粗糙体素query生成器,该生成器结合图像和雷达特征来生成几何语义感知的粗粒度体素query。体素query编码器使用交叉视图注意力通过堆叠的transformer block迭代增强细粒度体素特征。
Camera & 4D Radar Encoders
在特征提取阶段,我们采用解耦架构,从两个输入模态中独立提取高维特征。相机编码器处理多视角图像,使用共享的ResNet-50 主干网络和特征金字塔网络作为Neck结构进行特征提取,从而获得多尺度特征。为了解决 4D 雷达点云的稀疏性问题并通过消除自车运动效应来获取其速度,我们实施了结合多帧雷达点云累积和速度补偿的预处理流程。该算法使用相应的自车车辆速度来处理每次雷达扫描,并通过雷达到自车的旋转矩阵将其转换到雷达坐标系中。为了补偿相对径向速度,根据每个点的方位角和仰角,将速度矢量分解为径向方向。然后使用旋转矩阵将补偿的速度变换到当前自车坐标系。对于每个点的位置,使用雷达到自车的变换矩阵实现变换。请注意,在累积操作期间会忽略由周围动态物体的运动引起的点的运动,因为这种运动很少会引入较大的误差。
4D Radar编码器处理输入的点云数据。我们采用RadarPillarNet来编码输入的4D毫米波雷达点云数据,进而通过分层特征提取生成伪图像。编码后的特征随后由 SECOND 和SECONDFPN 处理,以生成精细的4D雷达BEV特征。
Coarse Voxel Queries Generator
在雷达特征处理阶段,我们首先通过双线性插值将雷达 BEV 特征转换为与体素网格对齐,随后,我们使用 Conv-BN-ReLU进一步优化特征通道。通过应用简单的unsqueeze操作沿高度维度扩展 2D BEV 特征,我们获得了雷达 3D 体素特征,可以用数学形式表示为如下的形式
对于图像特征处理,我们首先根据3D体素query的形状在自车坐标系内定义 3D 参考点。同时,我们将体素特征初始化为零。然后使用相机的固有矩阵计算从自车坐标系到图像像素坐标的变换矩阵。
我们将参考点投影到每个图像平面上,以获得它们在特征图上的对应坐标。有效点由两个标准确定:(x,y)必须位于特征图边界内并且z一定是正数。特征采样过程采用最近邻插值,并采用“last-update”策略解决重叠的多视图区域。最终的粗粒度体素查询是通过元素相加获得的:
Voxel Queries Encoder
为了增强和细化体素查询,我们采用基于L层Transformer 的架构进行特征编码。我们采用可变形注意力进行跨视图特征聚合,这不仅可以缓解遮挡和歧义问题,还可以通过减少训练时间来提高效率。在跨视图注意模块中,输入包括体素查询、相应的 3D 参考点和图像特征。使用相机参数将 3D 参考点投影到2D 视图中,并从命中视图中采样和加权图像特征。输出特征可以表示为如下的形式:
Dual-branch Temporal Encoder
时序信息在感知系统中起着至关重要的作用。现有的相关方法已经证明,利用时序特征可以有效解决遮挡问题,增强场景理解,并提高运动状态估计的准确性。然而,这些方法仅限于在单个特征空间中进行时间建模,因此很难捕获全面的时空表示。为了解决这一限制,我们提出了一种新颖的双分支时序编码器模块,该模块在 BEV 和体素空间中并行处理多模态时间特征,其网络结构如下图所示。
具体而言,雷达 BEV 分支擅长捕获全局几何特征,而图像体素分支则专注于保留细粒度的语义信息。这种互补的双分支设计不仅在特征表达和时序建模方面提供了多样化的表示能力,而且还实现了计算成本和特征表达能力之间的优化平衡。此外,特征冗余机制显著增强了感知系统的鲁棒性。
在时序特征融合中,一个关键挑战是自车运动和动态物体运动导致的特征错位。为了解决自车运动引起的特征位移,我们提出了一种基于位姿变换的特征对齐策略,该策略可将历史特征与当前帧精确对齐。此外,为了进一步减轻动态物体造成的特征错位问题,我们采用可变形注意来自适应地融合当前帧和历史帧之间的特征。在体素时序分支当中,我们通过连接对齐的历史特征并通过简单的Res3D块对其进行处理,以实现高效的特征集成过程。
在 BEV 时序分支当中,我们也应用了类似的处理过程。历史 BEV 特征被concat到一起并通过 Res2D 块进行处理
Cross-Modal BEV-Voxel Fusion Module
为了有效利用体素和 BEV 空间的时序增强特征,我们提出了一个跨模态 BEV-体素融合模块,该模块为下游多任务解码生成几何和语义丰富的多模态表示。其整体网络结构如下图所示,该模块通过注意力加权机制自适应地融合异构特征,同时采用辅助任务进一步提高生成特征的质量。
具体来说,该模块首先通过 3D 反卷积块对低分辨率体素特征进行上采样,以获得高分辨率特征,以便随后进行融合。对于体素特征增强,首先通过 2D 中的 Conv-BN-ReLU 块处理雷达 BEV 特征以重塑特征通道,然后进行解压缩操作,沿高度维度扩展 2D BEV 特征。然后将扩展的特征与体素特征连接起来,并通过卷积块进行处理以降低通道维度。最后,采用具有注意机制的残差结构来获得融合的特征。
实验结果&评价指标
下表展示了不同方法在 OmniHD-Scenes 测试集上针对 3D 检测任务的性能比较。与其他基于 4D 雷达、摄像头或它们融合的方法相比,我们提出的 Doracamom 实现了卓越的整体性能(39.12 mAP 和 46.22 ODS)。具体来说,它比 BEVFusion 好 5.17 mAP 和 3.22 ODS,同时比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在没有 DTE 模块的单帧设置中,我们的模型在 mAP 方面也优于所有其他方法。此外,Doracamom 显著缩小了与基于 LiDAR 的 PointPillars(46.22 ODS vs. 55.54 ODS)的性能差距,这证明了我们提出的架构的有效性以及低成本传感器配置在自动驾驶感知系统中的巨大潜力。在 TP 指标方面,我们的方法在 mAOE 和 mAVE 中都取得了最佳性能,分别达到 0.3545 和 0.6151。
下图所示的可视化结果表明,Doracamom 可以在白天和夜晚场景中提供可靠的性能。它在拥挤和复杂的场景中实现了较高的检测精度,只有偶尔漏检远处被遮挡的物体。
此外,下图展示了不同方法的 BEV 特征图。可以观察到,Doracamom 的特征图显示出清晰的物体边界和高度可区分的特征,并且没有物体严重拉伸或扭曲等重大问题。
下表展示了不同方法在 OmniHDScenes 验证集上针对占用预测任务的性能比较。与其他方法相比,我们提出的 Doracamom 实现了卓越的整体性能(33.96 SC IoU 和 21.81 mIoU)。当 BEVFormer 使用更大的主干网络(R101-DCN)和更高分辨率的图像输入时,其性能超越了结合摄像头和 4D 雷达数据的多传感器融合方法,如 M-CONet。尽管如此,凭借我们精心设计的架构,即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。
此外,下表展示了不同模型在不利条件下的表现,其中 Doracamom算法模型取得了更好的结果,mAP 为 41.86,ODS 为 48.74,持续优于其他方法,并表现出更强的稳健性。
下表展示了不同模型在资源消耗和效率方面的比较。与现有方法相比,我们的 Doracamom 系列模型在性能和效率之间表现出色。在资源消耗方面,Doracamom-S 仅需要 4.71G 内存和 49.63M 参数,比 BEVFusion(约 8G 内存和 57M 参数)和 PanoOcc(5.03G 内存和 51.94M 参数)更轻量。即使包含 2 个帧,Doracamom-2frames 也能保持相对较低的资源使用率(4.72G 内存,52.67M 参数)。在推理效率方面,Doracamom-S 和 Doracamom-2frames 分别达到 4.8FPS 和 4.4FPS,明显优于 BEVFusion 系列(3.2-3.6FPS)。虽然比 PanoOcc (5.5FPS) 稍慢,但我们的模型表现出了显著的性能优势:Doracamom-2frames 在所有评估指标中都实现了最佳性能,大大超越了其他方法。
结论
在本文中,我们提出了 Doracamom算法模型,这是第一个具有多视角相机和 4D 雷达融合的统一多任务感知框架。在 OmniHD-Scenes、VoD 和 TJ4DRadSet 三个数据集上的实验结果表明,我们的方法在 3D 目标检测和 3D 语义占用预测任务中都实现了最先进的性能。