性能提升44%！浙大提出LiCROcc：Radar Occ的春天来了？-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面 & 笔者的个人理解

语义场景补全（SSC）是自动驾驶感知中至关重要的技术，经常面临天气和照明变化的复杂性。现有策略包括融合多模态信息以增强系统的鲁棒性。雷达作为3D目标检测中重要的传感器，逐渐在自动驾驶应用中取代激光雷达，并且可以提供更鲁棒的感知替代方案。本文们专注于3D雷达在语义场景补全中的潜力，开创了跨模态细化技术，以提高对天气和照明变化的鲁棒性，并增强SSC性能。

在模型架构方面，本文提出了一种三阶段的紧密融合方法在BEV上实现点云和图像的融合框架。基于此基础设计了三个跨模态蒸馏模块—CMRD、BRD和PDD。我们的方法通过将激光雷达和相机的丰富语义和结构信息蒸馏到 radar-only（R-LiCROcc）和雷达-相机（RC-LiCROcc）的配置中，增强了性能。最后本文提出的LC-Fusion（教师模型）、R-LiCROcc和RC-LiCROcc在nuScenes-Occupancy数据集上取得了最佳性能，其中mIOU分别超过基线22.9%、44.1%和15.5%。

源码链接： https://hr-zju.github.io/LiCROcc/

LiCROcc详解

概述

如上所述，我们构建了基于雷达的基线，并设计了雷达-相机融合网络（图2的底部）以提升基线性能。为了利用激光雷达-相机融合中详细的几何结构和点表示的指导，我们进一步使用基于融合的知识蒸馏将知识从激光雷达-相机融合网络（图2的顶部）传递到基于雷达的基线和雷达-相机融合网络。我们采用相同的架构，即多模态融合网络，来建立上述两个融合网络。

多模态融合网络

多模态融合网络主要由图像分支提取图像特征、点分支编码激光雷达/雷达点，以及多模态BEV融合网络高效整合点和图像特征。

基于融合的知识蒸馏模块

整体损失函数

实验分析

在本节中，我们将详细介绍评估数据集和指标、实施详情，以及与最先进方法的性能比较。此外，我们还进行了消融研究，以证明申报融合模块的有效性和蒸馏模块。最后，我们提供了实验来消除观察距离的影响和雷达在语义场景完成任务方面的独特优势。

实验细节

对于激光雷达输入，我们将10个激光雷达扫描合并为一个关键帧。ResNet50作为图像主干来处理输入分辨率为256×704的相机图像。在训练期间，我们将点云投影到相机视图上，以提供LSS的深度监督。对于雷达输入，我们采用CRN中的预处理过程，使用汽车上的5个雷达传感器拼接雷达扫描。对于数据增强，我们对图像随机应用水平和垂直翻转以及裁剪。点云通过在x轴和y轴上随机翻转进行增强。我们使用AdamW优化器，权重衰减为0.01，初始学习率为2e-4。我们使用余弦学习率调度器，在前500次迭代中进行线性预热。所有实验都在8个NVIDIA A100 GPU上进行，总批量大小为32，训练24个周期。

定量结果

表I展示了与SOTA的比较结果。与所有先前方法相比，我们的LiCROcc在相同配置下取得了最佳性能。例如，我们的激光雷达-相机融合模型LCFusion显示出显著的改进，与基线（M-CONet）相比，mIoU增加了23%，IoU增加了18%。同时，LC-Fusion在mIoU和IoU得分上分别比PointOCC提高了3.3%和2.3%，这强调了我们提出的多模态BEV融合的有效性。

为了全面评估我们提出的方法的有效性，我们修改了几种现有的基于激光雷达和多模态方法（CONet [4]，SSC-RS，PointOcc和CoOCC），以适应雷达输入，作为我们的比较。如表I的第二部分所示，我们的R-LiCROcc在mIoU得分上超过了次好的方法（PointOcc）和基线（R-SSC-RS）13.3%，证明了我们提出的基于融合的知识蒸馏的有效性。我们发现R-LiCROcc的IoU得分略低于PointOcc。我们解释说，这可以归因于PointOcc在三个平面上投影特征并使用更大的模型，这对于占用预测可能更有利。对于雷达-相机融合，我们以CONet和CoOCC作为基线。结果显示在表I的第三部分，表明我们提出的雷达-相机融合版本RC-Fusion已经达到了与这些基线相当的性能。提出的基于融合的知识蒸馏进一步提高了性能，mIoU和IoU分别提高了1.5和0.8。我们还提供了可视化结果，在图4中展示了我们的RC-LiCROcc和R-LiCROcc如何实现更完整的场景补全和更精确的目标分割。

消融实验

我们进行了一系列实验来验证所提出的模块以及雷达作为语义场景补全任务传感器的潜力。所有实验都在相同的训练配置下进行，并根据nuScene-Occupancy [4]验证数据集进行评估。

融合模块的效果： 我们研究了在第III-B节中提出的多模态BEV融合网络中不同融合阶段的影响。相应的结果显示在表II中。"Stages=0"意味着仅使用点云作为输入，这作为基于点的基线。从表II中，我们可以看到多阶段融合策略在不同尺度上融合BEV特征，并有效提高了语义场景补全的准确性。

蒸馏模块的效果： 在本节中，我们深入研究了我们提出的基于融合的知识蒸馏中不同蒸馏组件的各自贡献。详细的结果在表III中说明。我们通过将它们纳入两个不同的配置：R-LiCROcc（表III的第一部分）和RC-LiCROcc（表III的第二部分），系统地评估了这些模块的影响。

表III的两部分结果都表明CMRD、BRD和PDD组件显著增强了性能。其中，PDD在跨模态知识蒸馏中具有最关键的作用，为R-LiCROcc贡献了7.6%的mIoU改进，为RC-LiCROcc贡献了4.9%的mIoU改进。

KD的视觉场优势： 雷达的固有能力是能够穿透物体并绕过前景障碍物，这使其比激光雷达和相机传感器提供了更广的视野。然而，雷达点云的稀疏性随着距离的增加而增加，这对于SSC特别不利，如表IV的第2行和第3行所示。

为了进一步分析LiCROcc带来的改进，我们进行了统计分析，以评估系统在不同距离范围内对语义场景补全的有效性，详细见表IV。我们分别在[0m, 20m]、[20m, 30m]和[30m, 50m]的语义场景补全中测量了教师模型、学生模型和R-LiCROcc的IoUs和mIoUs。表IV揭示了知识蒸馏（KD）显著增强了学生模型的性能，特别是在短距离区域。有趣的是，我们发现当从激光雷达-相机融合到基于雷达的模型执行KD时，远程区域的mIoU得分改进远小于近程和中程区域。这一观察表明，由于其相对较短的视觉范围，激光雷达-相机融合的优势随着距离的增加而丧失。值得注意的是，教师和学生模型在远程区域的性能都严重下降，特别是在mIoU得分上。例如，教师模型在20米内比RC-LiCROcc高出10.96 mIoU。然而，当范围在[30m, 50m]时，这一优势急剧下降到3.76点（几乎减少了65%）。

雷达的天气鲁棒性： 本研究评估了雷达在各种天气条件下的性能。详细结果在表V中揭示了模型的性能随天气场景（晴朗的白天、雨天、夜晚和雨夜）的变化而波动。

首先，如表V所示，三种传感器类型的天气属性显示出不同程度的鲁棒性。雷达的mIoU从晴朗的一天到雨夜仅下降了3.25，而激光雷达和相机的mIoU分别下降了10.33和10.46点。这表明雷达对不利天气和照明条件最为弹性。特别是，在晴朗的白天，教师模型在mIoU得分上比R-LiCROcc高出16.32，比RC-LiCROcc高出7.43。然而，在雨夜条件下，这种优势缩小到7.95和5.26，主导性能分别下降了51.3%和29.2%。此外，很明显nuScenes数据集中的雨并不特别大，导致对激光雷达点云的影响没有预期的那么显著。在更广泛的天气条件下检查雷达性能是我们未来工作的重点。

在晴朗的白天条件下，蒸馏效果带来了最佳性能。R-LiCROcc模型与学生模型相比，在IoU上提高了2.8%，在mIoU上提高了13.8%。同样，RC-LiCROcc模型在IoU上增加了3.2%，在mIoU上增加了10.3%。这种增强归因于教师模型在晴朗条件下的最佳性能。相反，在雨天和夜晚，激光雷达和相机的能见度受到损害，导致学生模型的增强效果不那么明显。事实上，R-LiCROcc模型在雨天的性能略有下降。

结论

在本文中，我们探讨了雷达在语义场景补全（SSC）任务中的应用。我们首先开发了一个融合网络，该网络整合了点云和图像，并辅以三个蒸馏模块。通过利用雷达的优势并在SSC任务上增强其性能，我们的方法在不同设置下取得了优异的成果。

性能提升44%！浙大提出LiCROcc：Radar Occ的春天来了？