本文经自动驾驶之心公众号授权转载,转载请联系出处。
论文思路:
汽车雷达(radar)系统已经发展到不仅提供距离、方位角和多普勒速度,还能提供俯仰数据。这一额外的维度使得4D雷达可以表示为3D点云。因此,现有的用于3D目标检测的深度学习方法,最初是为LiDAR数据开发的,经常被应用于这些雷达点云。然而,这忽略了4D雷达数据的特殊特性,例如极端稀疏性和速度信息的最佳利用。为了弥补这些在现有技术中的不足,本文提出了RadarPillars,一种基于柱状结构的目标检测网络。通过分解径向速度数据,引入PillarAttention进行高效特征提取,并研究层缩放以适应雷达稀疏性,RadarPillars在View-of-Delft数据集上的检测结果显著优于现有技术。重要的是,这在显著减少参数量的同时,实现了超越现有方法的效率,并在边缘设备上实现了实时性能。
论文设计:
在自动驾驶和汽车应用的背景下,雷达作为一种关键的感知技术脱颖而出,使车辆能够检测到周围的物体和障碍物。这一能力对于确保各种自动驾驶功能的安全性和效率至关重要,包括碰撞避免、自适应巡航控制和车道保持辅助。雷达技术的最新进展导致了4D雷达的发展,它结合了三个空间维度以及一个额外的多普勒速度维度。与传统雷达系统不同,4D雷达引入了作为第三维度的俯仰信息。这一增强功能使得雷达数据可以表示为3D点云,类似于LiDAR或深度感应相机生成的点云,从而能够应用之前仅限于这些传感器的深度学习方法。
然而,尽管来自LiDAR检测领域的深度学习技术已经被适配到4D雷达数据上,但它们并没有充分探索或适应其独特特性。与LiDAR数据相比,4D雷达数据显著稀疏。尽管存在这种稀疏性,雷达独特地提供了速度作为特征,这在各种场景中有助于移动物体的检测,例如在LiDAR传统上难以应对的远距离场景中[1]。在View-of-Delft数据集中,平均每次4D雷达扫描仅包含216个点,而相同视野内的LiDAR扫描包含21,344个点[2]。对此,本文提出了RadarPillars,一种专门为4D雷达数据量身定制的新型3D检测网络。通过RadarPillars,本文填补了当前技术中的空白,并在以下几个方面做出了贡献,大幅提升了性能,同时保持了实时能力:
- 增强速度信息的利用:本文分解径向速度数据,提供额外的特征,从而显著提升网络性能。
- 适应雷达稀疏性:RadarPillars利用柱状表示法[3]进行高效的实时处理。本文利用4D雷达数据固有的稀疏性,并引入PillarAttention,一种将每个 pillar 作为一个 token 处理的新型自注意层,同时保持效率和实时性能。
- 针对稀疏雷达数据的扩展:本文展示了雷达数据的稀疏性可能导致检测网络中信息量较少的特征。通过均匀网络,本文不仅提升了性能,还显著减少了参数量,从而提高了运行效率。
图1:RadarPillars在4D雷达上的检测结果示例。汽车用红色标记,行人用绿色标记,骑行者用蓝色标记。点的径向速度由箭头指示。
图2:补偿了4D雷达自车运动的绝对径向速度$ v_r $。随着物体的移动,$ v_r $会根据其相对于传感器的航向角发生变化。由于其航向无法确定,汽车的实际速度$v$仍然未知。然而,$ v_r $可以分解为其$x$和$y$分量,以提供额外的特征。坐标系统和命名法遵循View-of-Delft数据集[2]。
图3:PillarAttention概述。本文利用雷达点云的稀疏性,通过使用掩码从非空 pillars 中收集特征,将空间大小从$H, W$减少到$p$。每个具有$C$通道的柱状特征被视为计算自注意力的一个 token 。本文的PillarAttention封装在一个Transformer层中,前馈网络(FFN)由层归一化(Layer Norm)和两个中间带有GeLU激活的MLP组成。PillarAttention的隐藏维度$E$由层前后的MLP控制。最后,具有$C$通道的柱状特征被散射回其在网格中的原始位置。本文的PillarAttention不使用位置嵌入。
图4:本文提出的方法组合形成RadarPillars,与基准方法PointPillars [3]的比较。在View-of-Delft数据集[2]上,整个雷达区域的一帧目标检测精度结果。帧率是在Nvidia AGX Xavier 32GB上评估的。
图5:权重幅度分析比较不同通道大小的均匀缩放RadarPillars。结果显示,随着网络规模的减小,权重强度增加。本可视化排除了无效权重和异常值。
实验结果:
总结:
本文提出了RadarPillars,利用4D雷达数据进行目标检测的新方法。作为一个仅有 0.27 M 参数和1.99 GFLOPS的轻量级网络,RadarPillars在检测性能方面建立了新的基准,同时实现了实时能力,显著超越了当前的先进技术。本文研究了雷达速度的最佳利用,以为网络提供增强的上下文。此外,本文引入了PillarAttention,这是一种创新的层,将每个 pillar 视为一个 token ,同时确保效率。本文展示了均匀缩放网络在检测性能和实时推理方面的优势。以RadarPillars为基础,本文未来的工作将集中于通过优化主干网络和探索无锚检测头来提升运行时间。另一条研究途径是研究使用仅包含PillarAttention的Transformer层进行端到端的目标检测,或将有前景的LiDAR方法[38], [39]适用于雷达。此外,本文还提出将RadarPillars扩展到其他传感器数据模态的潜力,如深度传感器或LiDAR。