4D成像雷达如何与3D多目标跟踪结合？TBD-EOT或是答案！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

大家好，感谢自动驾驶之心的邀请，很荣幸能够在这里分享我们的工作。

在线3D多目标跟踪（MOT）技术在先进驾驶辅助系统（ADAS）和自动驾驶（AD）中具有重要的应用价值。近年来，随着业界对于高性能三维感知的需求持续增长，在线3D MOT算法得到了日益广泛的研究和关注。对于4D毫米波雷达（又称4D成像雷达）或激光雷达点云数据，目前应用在ADAS和AD领域的在线3D MOT算法大多采用基于检测后跟踪策略的点目标跟踪（TBD-POT）框架。然而，基于联合检测跟踪策略的扩展目标跟踪（JDT-EOT）作为另一种重要的MOT框架，在ADAS和AD领域尚未得到充分研究。本文首次在真实的在线3D MOT应用场景中，对包括TBD-POT，JDT-EOT，以及我们提出的TBD-EOT框架的性能进行了系统性的讨论和分析。特别地，本文在View-of-Delft（VoD）和TJ4DRadSet两个数据集的4D成像雷达点云数据上对三种框架的SOTA实现进行了性能评估和对比。实验结果表明，传统的TBD-POT框架具有计算复杂度低、跟踪性能高的优点，在3D MOT任务中仍然可以作为首要选择；同时，本文提出的TBD-EOT框架在特定场景下具备超越TBD-POT框架的潜力。值得注意的是，近期得到学术界关注的JDT-EOT框架在ADAS和AD场景下性能表现欠佳。本文基于多种性能评估指标对上述实验结果进行了分析，给出了在真实应用场景中提高算法跟踪性能的可能方案。针对基于4D成像雷达的在线3D MOT算法，上述研究在ADAS和AD领域内提供了首个性能基准测试，并为此类算法的设计和应用提供了重要的观点和建议。

1. 简介

在线3D多目标跟踪（MOT）是先进驾驶辅助系统（ADAS）和自动驾驶（AD）中的重要组成部分。近年来，随着传感器和信号处理技术的发展，基于相机、激光雷达和雷达等多种类型传感器的在线3D MOT技术得到了广泛的关注。在各种传感器中，雷达作为唯一的价格低廉且能在极端光照和恶劣气象条件下工作的传感器，已经在实例分割、目标检测以及MOT等感知任务中得到了大量应用。然而，尽管传统的汽车雷达能够在距离和多普勒速度上有效地区分目标，雷达量测的低角度分辨率仍然制约了目标检测和多目标跟踪算法的性能。与传统汽车雷达不同，近期出现的基于MIMO技术的4D成像雷达能够测量目标的距离、速度、方位角、俯仰角信息，从而为基于雷达的3D MOT提供了新的发展可能。

3D MOT算法的设计范式可以分为两类：基于模型的（Model-based）和基于深度学习的（Deep learning-based）。基于模型的设计范式采用了精心设计的多目标动态模型和量测模型，适合用于开发高效且可靠的3D MOT方法。在基于模型的典型MOT框架中，采用检测后跟踪（TBD）策略的点目标跟踪（POT）框架得到了学术界和工业界的广泛接受。POT框架假设每个目标在一次传感器扫描中仅产生一个量测点，然而对于激光雷达和4D成像雷达，一个目标经常在一次扫描中产生多个量测点。因此，在进行目标跟踪前，首先需要通过目标检测器将来自同一个目标的多个量测处理成一个检测结果（例如一个目标检测框）。TBD-POT框架的有效性已经在诸多基于真实激光雷达点云数据的3D MOT任务中得到了验证。

采用联合检测跟踪（JDT）策略的扩展目标跟踪（EOT）作为另一种基于模型的MOT框架，近期在学术界得到了广泛关注。与POT不同，EOT假设一个目标能够在一次传感器扫描中产生多个量测，因此在实现JDT时无需额外的目标检测模块。相关研究指出，JDT-EOT在真实的激光雷达点云以及汽车雷达检测点数据上跟踪单个目标时能够得到良好的性能表现。然而，对于复杂ADAS和AD场景下的在线3D MOT任务，鲜有使用真实数据对EOT进行评估的研究，而且这些研究并未在ADAS/AD数据集上详细评估EOT框架对不同类型目标的MOT性能，也没有使用被广泛接受的性能指标对实验结果进行系统性的分析。本文的研究首次通过综合性的评估和分析尝试回答了这一开放性问题：EOT框架是否能够应用在复杂ADAS和AD场景下，并获得优于传统TBD-POT框架的跟踪性能和计算效率。本文的主要贡献主要包括：

通过比较POT和EOT框架，本文在ADAS和AD领域为此后研究基于4D成像雷达的在线3D MOT方法提供了首个性能基准。文中的性能评估和分析展示了POT和EOT框架各自的优势和不足，同时为设计在线3D MOT算法提供了指导建议。
为了填补基于EOT的在线3D MOT方法在理论与实际之间的差距，本文首次在真实的ADAS和AD场景下对EOT框架进行了系统性的研究。尽管在学术界得到广泛研究的JDT-EOT框架性能表现不佳，本文提出的TBD-EOT框架发挥了深度学习目标检测器所具有的优势，从而实现了优于JDT-EOT框架的跟踪性能和计算效率。
实验结果表明，传统的TBD-POT框架因为具备高跟踪性能和计算效率，所以在基于4D成像雷达的在线3D MOT任务中仍然是优先选择。然而TBD-EOT框架在特定场合下的性能优于TBD-POT框架，展现了在真实ADAS和AD应用中使用EOT框架的潜力。

2.方法

本节介绍在4D成像雷达点云数据上进行在线3D MOT的三种算法框架，包括TBD-POT、JDT-EOT和TBD-EOT，如下图所示：

A.框架1：采用检测后跟踪策略的点目标跟踪（TBD-POT）

TBD-POT框架已经在基于多种传感器的MOT研究中得到了广泛的接受。在这一跟踪框架下，4D成像雷达点云首先经过目标检测器的处理生成3D检测框，提供例如目标位置、检测框尺寸、朝向、目标类别、检测得分等信息。为了简化计算，POT算法通常选取直角坐标系下的二维目标位置作为量测，并在鸟瞰视角（BEV）下进行MOT。再将估计得到的目标位置与3D检测框的其他信息结合，得到最终的3D跟踪结果。TBD-POT框架具有两个主要优势：1）POT算法能够利用目标类型和检测得分等附加信息来提升跟踪性能；2）POT算法通常比EOT算法计算复杂度更低。

我们选择全局最近邻泊松多伯努利滤波器（GNN-PMB）作为POT算法，该算法在基于激光雷达的在线3D MOT任务中取得了SOTA性能。GNN-PMB通过传播PMB密度估计多目标状态，其中未检测到的目标由泊松点过程（PPP）建模，检测到的目标由多伯努利（MB）密度建模。数据关联通过管理局部假设和全局假设实现。在每个时刻，一个量测可能与一个已经被跟踪的目标、一个新检测目标、或是一个虚警相关联，形成不同的局部假设。相兼容的局部假设被统合在一个全局假设中，描述当前所有目标与量测的关联关系。与计算并传播多个全局假设的泊松多伯努利混合（PMBM）滤波器不同，GNN-PMB仅传播最优的全局假设，从而降低了计算复杂度。综上所述，本文所研究的第一个在线3D MOT框架将一个基于深度学习的目标检测器与GNN-PMB算法相结合。

B.框架2：采用联合检测跟踪策略的扩展目标跟踪（JDT-EOT）

与第一种框架TBD-POT不同，JDT-EOT框架通过同时检测和跟踪多个目标，能够直接处理4D成像雷达点云。首先，点云通过聚类形成可能的量测划分（点簇），然后EOT算法使用这些点簇进行3D MOT。理论上，因为点云相比经过预处理的3D检测框具有更丰富的信息，这种框架能够更准确地估计目标位置、形状并减少目标漏检。然而对于包含大量杂波的4D成像雷达点云，生成准确的量测划分是比较困难的。由于不同目标的点云空间分布也可能不同，JDT-EOT框架通常采用DBSCAN和k-means等多种聚类算法结合不同的参数设置，生成尽可能多的可能量测划分。这进一步增加了EOT的计算复杂度，影响这一框架的实时性。

本文选择了基于伽马高斯逆威沙特（GGIW）分布的PMBM滤波器实现JDT-EOT框架。GGIW-PMBM滤波器是具有SOTA估计精度和计算复杂度的EOT算法之一。选择PMBM滤波器是因为该算法使用多伯努利混合（MBM）密度建模目标并且传播多个全局假设，能够较好地应对雷达量测的高度不确定性。GGIW模型假设一个目标生成的量测点数量服从泊松分布，单个量测服从高斯分布。在这一假设下，每个目标的外形呈椭圆形，以逆威沙特（IW）密度描述，椭圆的长轴和短轴可以用于形成目标的矩形外框。这种外形建模较为简单，适用于多种类型的目标，并且在现有EOT算法实现中计算复杂度最低。

C.框架3：采用检测后跟踪策略的扩展目标跟踪（TBD-EOT）

为了在EOT框架下发挥深度学习目标检测器的优势，我们提出了第三种MOT框架：TBD-EOT。与在完整点云上进行聚类的JDT-EOT框架不同，TBD-EOT框架在进行聚类前首先选出在目标3D检测框内部的有效雷达量测点，这些量测点更可能来源于真实目标。与JDT-EOT相比，TBD-EOT框架具有两方面的优势。首先，移除可能来源于杂波的量测点后，EOT算法中数据关联步骤的计算复杂度将显著降低，同时虚假检测的数量也可能减少。其次，EOT算法可以利用源自检测器的信息，进一步提高跟踪性能。例如为不同类别的目标设定不同的跟踪参数，丢弃检测得分低的目标检测框等。TBD-EOT框架在部署时使用了与TBD-POT相同的目标检测器，同时采用GGIW-PMBM作为EOT滤波器。

3.实验与分析

A.数据集和评估指标

本文在VoD数据集的0、8、12、18号序列和TJ4DRadSet的0、10、23、31、41号序列中的Car、Pedestrian、Cyclist类别上对三种MOT框架进行了评估。输入TBD-POT和TBD-EOT框架的目标检测结果由SMURF提供，该方法是4D成像雷达点云上的SOTA目标检测器之一。由于JDT-EOT不能获取目标的类型信息，我们在GGIW-PMBM算法的状态提取过程增加了根据目标外形尺寸判断类别的启发式目标分类步骤。

本文后续的评估选用了包括MOTA、MOTP、TP、FN、FP和IDS在内的一组常用MOT性能指标。此外我们还应用了一种较新的MOT性能指标：高阶跟踪精度（HOTA）。HOTA可以分解成检测精度（DetA）、关联精度（AssA）和定位精度（LocA）子指标，有助于更明确地分析MOT性能。

B.跟踪框架性能对比

三种MOT框架的算法实现SMURF + GNN-PMB、GGIW-PMBM和SMURF + GGIW-PMBM均在VoD和TJ4DRadSet数据集的训练集上进行了参数调优。各算法在VoD数据集上的性能如下表所示：

各算法在TJ4DRadSet数据集上的性能如下表所示：

1）GGIW-PMBM的性能

实验结果表明，GGIW-PMBM的性能表现低于预期。由于跟踪结果包含大量的FP和FN，GGIW-PMBM在三个类别上的检测精度很低。为了分析这一现象的成因，我们使用未经分类的跟踪结果计算了TP与FN，如下表所示。可观察到三个类别上的TP数量均有明显提升，说明GGIW-PMBM能够产生接近真实目标位置的跟踪结果。然而如下图所示，GGIW-PMBM估计的目标大部分具有相似的长度和宽度，这导致启发式目标分类步骤无法基于目标尺寸有效区分目标类型，对跟踪性能造成了不利影响。

进一步的，我们对GGIW-PMBM在两个数据集上的性能差异进行分析。Pedestrian和Cyclist类别的MOTA指标在TJ4DRadSet上远低于VoD数据集，说明GGIW-PMBM在TJ4DRadSet上产生了更多的虚假轨迹。造成这一现象的原因可能是TJ4DRadSet数据集包含更多的来自道路两侧障碍物的杂波量测，如下图所示。由于大部分路边障碍物是静止不动的，可以通过在聚类前去除低径向速度的雷达量测点来改善这一问题。由于TJ4DRadSet尚未公开自车运动数据，本文没有提供补充实验。尽管如此，我们可以推测类似的处理步骤同样会影响到静止目标的雷达点云，增加这些目标未能被正确跟踪的可能性。

总体而言，GGIW-PMBM未能在真实的4D成像雷达点云上获得良好的性能，主要因为在没有目标检测器提供额外信息的情况下，算法难以通过启发式方法判断跟踪结果的类别，或是区分来自目标的点云与背景杂波。

2）SMURF + GNN-PMB和SMURF + GGIW-PMBM的性能

SMURF + GNN-PMB和SMURF + GGIW-PMBM均利用了来自目标检测器的信息。实验结果表明，前者在Car类别上获得了明显优于后者的性能，主要因为后者对于Car目标的定位精度更低。点云分布建模的误差是造成这一现象的主要原因。如下图所示，对于车辆目标，雷达点云倾向于聚集在靠近雷达传感器的一侧。这与GGIW模型中量测点在目标表面均匀分布的假设不相符，导致SMURF + GGIW-PMBM估计得到的目标位置和外形与真实值产生偏差。因此使用更准确的目标量测模型，例如高斯过程，可能帮助TBD-EOT框架在跟踪车辆等大型目标时获得更好的性能，不过这也可能增加算法的计算复杂度。

我们同样观察到SMURF + GGIW-PMBM和SMURF + GNN-PMB在Cyclist类别上的性能差距缩小了，前者的HOTA指标在Pedestrian类别上甚至优于后者。此外，SMURF + GGIW-PMBM在Pedestrian和Cyclist类别上的IDS数量也更少。这些现象的成因可能包括：首先，GGIW-PMBM根据估计的GGIW密度自适应计算目标的检测概率；其次，GGIW-PMBM在计算关联假设似然时不仅考虑了目标位置，同时也考虑了目标量测点的数量和空间分布。对于Pedestrian和Cyclist等小型目标，雷达点在目标表面分布更加均匀，更符合GGIW模型假设；因此SMURF + GGIW-PMBM能够利用来自点云的信息更准确地估计检测概率和关联假设似然，从而通过减少轨迹中断和错误关联来提高定位、关联和ID维持方面的性能。

4.结论

本文系统性的对比了POT和EOT框架在基于4D成像雷达点云的在线3D MOT任务中的性能。我们在VoD和TJ4DRadSet两个数据集的Car、Pedestrian和Cyclist类别上评估了TBD-POT、JDT-EOT和TBD-EOT三种框架的跟踪性能指标。结果表明，传统的TBD-POT框架仍然有效，其算法实现SMURF + GNN-PMB在Car和Cyclist类别上获得了最优的性能。然而，JDT-EOT框架无法有效去除杂波量测并且产生了过多的量测划分假设，导致GGIW-PMBM未能获得令人满意的性能表现。在本文提出的TBD-EOT框架下，SMURF + GGIW-PMBM在Pedestrian类别上获得了最优的关联和定位精度，同时在Pedestrian和Cyclist类别上实现了可靠的ID估计，展现出超越TBD-POT框架的潜力。然而，SMURF + GGIW-PMBM无法有效建模非均匀分布的雷达点云，导致其对于车辆目标的跟踪性能较差。因此，更符合实际的、低计算复杂度的扩展目标模型需要在未来得到进一步的研究。

原文链接：https://mp.weixin.qq.com/s/ZizQlEkMQnlKWclZ8Q3iog