PC-BEV：巧用多坐标系融合策略，实现点云分割170倍加速，精度显著提升！-51CTO.COM

本文经3D视觉之心公众号授权转载，转载请联系出处。

论⽂题目：PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

论文作者：Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

论文地址：https://arxiv.org/pdf/2412.14821

1.背景介绍

激光雷达点云分割是自动驾驶领域的核心任务，其目标在于精细地理解周围环境的语义信息。目前，该领域的方法主要分为三类：基于点的方法、基于体素的方法和基于投影的方法。

其中，基于投影的方法因其能够利用2D卷积神经网络（CNN）高效处理投影点云而受到青睐。但是，相比于计算量大的基于体素方法，从3D到2D的投影过程中不可避免地丢失信息，这限制了这种算法的性能。

为了缩小这一性能差距，多视图融合技术应运而生，通过整合不同投影技术捕获的互补信息。近期的多视图融合方法，如AMVNet、GFNet和CPGNet，通过基于点的特征交互增强了表示学习。

然而，由于缺乏视图间的固定对应关系，这些方法需要进行高成本的网格采样和散射操作，影响了实时性能。此外，特征融合通常仅限于点存在的区域，可能会忽略周围区域中有价值的上下文信息。

▲图1 | 与其他基于投影的方法比较，结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译

2.方法提出

为了克服这些限制，作者提出了一种创新的多分区特征融合框架，完全在BEV空间内操作，充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发，并且实验表明不同分区方法的性能具有互补性。

为了促进极坐标和笛卡尔分支之间的特征融合，作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系，预先计算对应参数，再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外，所有的特征融合在BEV空间位置操作，不仅实现了密集融合，还保留了比以往基于点的方法更多的宝贵上下文信息。

作者还提出了一种混合Transformer-CNN架构，用于BEV特征提取。Transformer块中的自注意力捕获全局场景信息，然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明，这种架构在保持实时推理能力的同时增强了模型性能。

▲图2 | 极坐标-笛卡尔BEV融合框架用于3D点云语义分割任务的流程图。©️【深蓝AI】编译

3.方法详解

3.1. 极坐标-笛卡尔BEV融合框架

对于最终的语义预测，由于本方法的目标是为场景中的每个点提供语义预测，因此需要获取每个点在投影空间中用于类别预测的特征。对于从不同分支提取了特征，以前方法中的常见做法是通过网格采样（GS）操作检索每个点的相应特征。然后从不同分支采样的特征被融合。最后，融合的特征用于获得最终的语义预测结果。以前的基于点的输出融合可以表示为（这里作者假设使用连接操作进行融合）：

为了进一步加速模型推理，作者使用重映射操作对一个分支的特征与另一个分支对齐，这使模型能够仅对重映射分支执行一次网格采样。在论文中，作者选择将从极坐标分支提取的特征与笛卡尔空间对齐，因为作者实验发现这比相反的方式表现略好。作者将重映射的极坐标特征与笛卡尔特征连接，然后使用网格采样获得每个点的BEV位置特征。因此，作者方法中的最终点级特征输出可以表示为：

▲图3 | 在不同设置下，比较先前的基于点的方法和基于重映射的方法的特征交互操作过程。©️【深蓝AI】编译

3.2. 特征融合通过重映射

与以前的多视图融合方法在不同投影空间中操作，由于投影过程中的信息丢失导致动态网格到网格的对应关系不同，本设计的方法从两个分区分支在同一BEV空间下的固定位置对应关系中受益，这为本设计提供了改进特征融合过程效率的机会。

具体来说，作者采用重映射技术来对齐两种不同分区方法下的特征。鉴于两个分支之间网格对应关系是固定的，重映射参数可以预先计算，以实现高效特征融合。作者提供了重映射操作的详细步骤，突出了基于重映射的交互相对于基于点的交互的优势。以从极坐标空间到笛卡尔空间的重映射过程为例，注意从笛卡尔到极坐标空间的重映射遵循相同的原则。

到目前为止，建立了笛卡尔和极坐标分支之间的坐标对应关系，这是固定的，所以可以预先计算融合。可以将网格中心视为一个点，并应用以前的基于点的方法进行特征融合；然而，作者的实验表明，这种方法在实践中是低效的。

为了更高效和有效地进行特征融合，作者开发了一种基于重映射的特征融合操作，显著提高了两个分支之间的特征对齐速度。传统的基于点的方法之所以慢，主要是因为网格采样操作和散射回操作。它们将每个点单独视为点级并行处理，导致实验中的缓存未命中率高。

与基于点的方法不同，作者的基于重映射的操作考虑了空间位置的连续性，使过程更友好于内存访问，并显著加快了计算速度。图3比较了不同特征融合方法。需要注意的是，并非一个分支中的每个网格在另一个分支中都有对应的区域，由于空间占用模式的变化。

如果一个分支中的空间位置在另一个分支中不可用，则简单地对该位置应用零填充。更详细的效率分析可以在补充材料中找到。基于重映射的融合方法通过在融合过程中整合更多的上下文信息提供了额外的优势。

如图4所示，基于点的方法仅在存在点的区域进行融合，丢弃了没有点的特征，作者称之为稀疏融合。相比之下，基于重映射的方法使整个BEV空间内的融合成为可能，实现了密集融合，丰富了来自另一分支的特征信息。

▲图4 | 基于点的交互结果与基于重映射的交互结果之间的比较。©️【深蓝AI】编译

3.3. Transformer-CNN混合架构

由于注意力机制缺乏区分输入序列中位置信息的能力，作者引入了正弦位置编码PE到特征中。最终的块嵌入输入自注意力可以表示为：

富含全局信息的特征然后被送入一个高效的CNN模型进行进一步提取。作者使用了一个U-net架构的CNN。实验表明，本文的Transformer-CNN混合架构在性能和推理速度方面都提供了优势。

4.实验结果

作者在SemanticKITTI和nuScenes数据集上进行了广泛的实验，证明了本方法以更快的推理速度实现了最先进的性能。

5.本文总结

本文介绍了一种新颖的实时激光雷达点云分割方法。该技术采用作者研发的高效重映射空间对齐融合策略，通过优化内存连续性，不仅大幅提升了处理速度，而且在性能上超越了传统的基于点的交互方法，同时还能保留更为详尽的上下文信息。

此外，文章中还介绍了一种Transformer-CNN混合架构，该架构在维持实时处理能力的基础上，进一步增强了模型的整体性能。通过在SemanticKITTI和nuScenes数据集上进行的广泛实验，充分验证了该方法的有效性和高效率。

展望未来，研究者可以会进一步探索将此技术应用于由多相机图像数据生成的BEV（鸟瞰图）表示，以拓展其应用范围。