Waabi最新 | UnO：用于感知和预测的无监督占用场-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

原标题：UnO: Unsupervised Occupancy Fields for Perception and Forecasting

论文链接：https://arxiv.org/pdf/2406.08691

项目链接：https://waabi.ai/uno/

作者单位：Waabi 多伦多大学

论文思路：

感知世界并预测其未来状态是自动驾驶中的一项关键任务。监督方法利用带标注的物体标签来学习世界模型——传统上通过目标检测和轨迹预测，或时序鸟瞰视角（BEV）占用场。然而，这些标注代价高昂，且通常仅限于一组预定义的类别，无法涵盖我们在道路上可能遇到的所有情况。相反，本文通过从LiDAR数据中进行自监督学习，来感知和预测一个连续的4D（时空）占用场。这个无监督的世界模型可以轻松且有效地转移到下游任务中。本文通过添加一个轻量级的学习渲染器来处理点云预测，并在Argoverse 2、nuScenes和KITTI数据集中实现了最先进的性能。为了进一步展示其可迁移性，本文微调本文的模型用于BEV语义占用预测，并显示其在标注数据稀缺时，优于全监督的最先进方法。最后，与之前最先进的时空几何占用预测方法相比，本文的4D世界模型在识别与自动驾驶相关的物体类别上实现了更高的召回率。

论文设计：

为了让自动驾驶车辆（SDV）能够有效且安全地规划其行动，它必须能够感知环境并预测其未来的演变。为了执行这两项任务，已经发展了两种范式。最常见的方法是检测场景中的一组离散物体，然后预测每个物体的可能未来轨迹 [5, 8, 11, 20, 21, 25, 35, 37, 39]。最近，鸟瞰视角（BEV）语义占用场 [1, 6, 15, 27, 31, 34] 变得流行起来，因为它们避免了对置信度分数进行阈值处理，并且更好地表示了对未来运动的不确定性。

这些方法利用来自人工标注的监督来学习世界模型。不幸的是，它们的性能受限于人工标注的规模和表达能力。由于这些标签的成本高昂，可用的标注数据量比未标注数据的量级要小得多。此外，这些标签通常局限于一组预定义的物体类别，并且物体形状用3D边界框来近似，对于许多类别来说，这是一个非常粗糙的近似。因此，罕见事件和不常见的物体很少包含在标注数据中，限制了当前自动驾驶系统的安全性。

这促使本文开发能够利用大量未标注传感器数据来学习世界表示的方法。先前的工作提出直接从过去的点云预测未来的点云 [28, 36, 38, 40]。然而，这使得任务变得不必要地困难，因为模型不仅必须学习世界模型，还必须学习传感器的外参和内参以及LiDAR的属性，如光线反射率，这是一种复杂的材料和入射角(materials and incidence angle)函数。为了解决这个问题，4D-OCC [23] 提出了利用已知的传感器内参和外参来学习未来的几何占用体素网格。然而，该方法受限于使用量化的体素网格和通过回归优化光密度的LiDAR深度渲染目标。正如本文的实验所示，这导致模型在学习世界动态时遇到困难。此外，所学习的表示是否对点云预测以外的下游任务有用仍然未知。

本文的目标是学习一个能够利用大规模未标注LiDAR数据的世界模型，并且能够轻松且有效地迁移到下游感知和预测任务中。为此，本文提出了一项新的无监督任务：从LiDAR观测中预测连续的4D（3D空间和时间）占用场（图1.a）。这一目标适合于学习通用表示，因为准确预测时空占用场需要理解世界的几何结构（例如，预测部分遮挡物体的形状）、动态（例如，预测移动物体未来的位置）和语义（例如，理解道路规则）。重要的是，本文采用了一种隐式架构，使本文的模型能够在空间和未来时间的任何连续点（x, y, z, t）进行查询。本文称之为UNO（UNsupervised Occupancy）的世界模型，能够学习常识性概念，例如物体的完整范围，即使输入的LiDAR数据只能看到物体的一部分。预测具有相关不确定性的多模态未来的能力也随之而来；例如，UNO可以预测一辆车可能会或不会变道，而行人可能会留在人行道上或进入人行横道。

为了展示本文的世界模型的通用性和有效性，本文展示了它可以迁移到两个重要的下游任务：点云预测（图1.b）和监督的BEV语义占用预测（图1.c）。对于点云预测，UNO通过在占用预测的基础上学习一个简单的光线深度渲染器，超越了Argoverse 2、nuScenes和KITTI中的最先进方法。对于BEV语义占用预测，本文展示了微调UNO能够优于完全监督的方法，特别是在可用于训练的标签有限时，这种改进尤为显著，展示了令人印象深刻的少样本泛化能力。

图1. 本文展示了UNO，这是一种世界模型，能够从未标注数据中学习预测随时间变化的3D占用情况（a）。该模型可以轻松且有效地迁移到下游任务，如点云预测（b）和鸟瞰视角语义占用预测（c）。

实验结果：

图4. UNO在两个不同示例上的可视化。本文标注了以下值得注意的观察：(A) 右转车辆的预测，(B) 仅从LiDAR数据的部分视角观察到的物体范围，(C) 移动车辆的预测，其中扩展的占用表示对未来加速度的不确定性，(D) 对人行道上行走行人的预测，(E) 预测车辆绕过停放的汽车进行变道，(F) 对变道车辆的持久点云预测，(G) 感知小物体如锥形标。

图5. BEV语义占用结果。微调UNO与最先进的监督方法在不同监督规模下的对比。

图6. 微调后的UNO的BEV语义占用预测。本文可视化了地图以提供上下文，但这不是模型的输入。A：准确感知场景中拥挤的区域，B：预测左转结束，显示出隐式地图理解，C：对移动物体进行准确的未来预测。

图7. 在Argoverse 2传感器数据集上的无监督占用召回率比较，结果在预测时间范围内取平均值。召回率是在0.7的精度下计算的。∗表示最稀有的25%的类别，†表示按边界框体积计算最小的25%的类别。

总结：

本文提出了UNO，这是一种强大的无监督占用世界模型，能够从过去的LiDAR数据中预测4D几何占用场。为了解决这个问题，本文利用未来点云所隐含的占用作为监督，来训练一个可以在任意连续的 (x, y, z, t) 点上查询的隐式架构。UNO不仅能够从未标注数据中实现对世界几何、动态和语义的出色理解，而且也能够有效且轻松地迁移到执行下游任务。为了展示这一能力，本文证明了UNO在点云预测和有监督的BEV语义占用预测任务上优于最先进的方法。本文希望UNO和未来在无监督世界模型方面的工作能够为自动驾驶带来更高的安全性，特别是对脆弱和稀有道路使用者。