3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)

人工智能 新闻
今天为大家分享港中文&小米最新的工作!以Object为中心的占用补全技术。

写在前面 && 笔者理解

传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。比如下图1(a)所示,起重机被一个3D边界框完美包围。但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。而感知出来的结果是将3D边界框所包围的空间视为不可通行的。因此,在处理复杂和不规则形状的物体时,边界框在提供细粒度感知结果方面是不足够的,这可能会影响后续任务的精度,如规划和控制。

图片

所以,占用空间是一个比较强有力的替代方法,如图1(b)所示,占用表示将3D空间离散化为体积网格,其中每个体素被分类为被占用或空闲。与3D边界框相比,这种表示更有效地捕捉不规则形状,从而增强了精确规划和控制。然而,从传感器输入实时生成场景级占用,无论是从视觉中心输入还是激光雷达传感器都非易事,前者是因为缺少深度感知,后者是因为每次激光雷达扫描的稀疏性(见图2(b))。

图片

因此,现有的方法利用神经网络以数据驱动的方式预测占用。由于计算限制,这些方法通常为大场景感知产生低分辨率占用网格或者需要大量的训练来实现隐式表示,这在实际使用中仍然是不够的和效率低下的。另一种构建占用网格的方法是直接体素化激光雷达点云。为了缓解稀疏性问题(图2(b)),聚合多个激光雷达扫描对于背景是有效的。然而,对于前景物体,占用构造变得具有挑战性,因为它需要准确的检测和跟踪来补偿它们的潜在移动。在实时应用中,3D检测容易漂移,跟踪算法可能会丢失或错配物体,导致不准确的轨迹。如图2(d)所示,直接从不准确的轨迹聚合点云会导致极其模糊的形状表示。这些不准确随时间积累,逐渐降低了形状表示的可靠性。

  • 论文链接:https://arxiv.org/pdf/2412.05154

基于这些观察,作者做了本文的工作,主要贡献总结如下:

  • 引入了以对象为中心的占用作为对象边界框的补充,为物体的内在几何提供了更详细的结构描述。与其场景级对应物不同,以对象为中心的占用专门关注前景物体,允许即使在大场景中也能实现更高的体素分辨率。
  • 为了促进以对象为中心的占用感知的发展,作者提出了一个新的以对象为中心的占用数据集,该数据集是使用自动化流水线从零开始构建的。
  • 提出了一个鲁棒的基于序列的占用完成网络。通过使用注意力机制聚合历史观测的时间信息,该网络有效地处理检测漂移,并准确预测完整的对象中心占用。
  • 采用了隐式形状解码器来生成动态大小的占用,并通过对选择位置的查询减少训练成本。在Waymo Open Dataset (WOD) 下的实验表明,即使在嘈杂的检测和跟踪条件下,本文的方法也能展现出鲁棒的性能,完成对象形状。凭借隐式形状描述符,作者展示了最先进的3D对象检测器的性能也可以得到改善,特别是对于不完整或远距离的物体。

相关工作

3D占用空间预测和形状补全

3D语义占用预测(SOP)已成为以视觉为中心的自动驾驶中的关键任务,其中算法主要使用RGB摄像头感知环境。这些以视觉为中心的模型通常将周围环境离散化为体积网格,并通过对单个/多视图RGB图像的适当聚合来预测每个体素的占用状态。对于被占用的体素,模型还会额外预测相应的语义类别。另一个类似的任务是3D语义场景补全(SSC)。与只需要预测可见区域的占用的SOP不同,SSC还要求模型确定未见区域的占用状态。值得注意的是,尽管SOP和SSC主要与以视觉为中心的方法相关,但它们也适用于稀疏激光雷达或多模态输入。现有的SOP和SSC方法主要关注场景级占用,而作者的工作集中在对象级占用上,以更好地表示形状。此外,对于作者设置,被占用体素的语义不是必需的,因为作者主要关注的是对象边界框内的几何结构,其类别标签是已知的。与作者基于占用的方法不同,大多数形状补全方法专注于对象的表面重建。然而,基于表面的表示不太适合自动驾驶感知,因为它们不直接支持诸如避碰等任务。

长序列做3D目标检测

对于单帧检测器可以通过将几个历史帧的连接作为输入,来获得不错的效果。尽管这种简单的多帧策略显示出明显的改进,但随着输入帧数的增加,性能容易饱和。此外,随着输入帧数的增加,计算成本显著增加,这对于实时应用不理想。为了解决这个问题,有的工作采用了残差点探测策略来移除多帧输入中的冗余点,有的工作选择了一种以对象为中心的方法,通过对轨迹提议进行时间聚合,允许处理更长的序列以降低计算成本。此外,还有一些工作通过利用整个对象轨迹的过去和未来信息,展示了人类级别的检测性能。然而,它们仅限于离线应用,因为它们需要访问未来的帧。最近,MoDAR通过使用从长历史子序列预测的未来轨迹点来增强激光雷达点云,从而改进检测。与MoDAR相比,作者的方法能够通过紧凑的隐式潜在嵌入聚合所有历史信息。

隐式表示

隐式形状表示就是用连续函数表示3D形状。与传统的显式表示(例如,点云、网格、体积网格)相比,隐式表示可以在连续空间中描述形状结构,并且更节省内存。而不是手动设计隐式函数,最近的一些工作提出从数据中学习隐式函数。具体来说,他们使用神经网络来近似隐式函数,这可以通过数据驱动的方式进行训练。这些神经函数通常以连续的3D坐标作为输入,并在查询位置输出相关的形状属性(例如,颜色、密度、有符号距离等)。作者的隐式形状解码器与DeepSDF比较相似。然而,作者不是预测查询位置的有符号距离,而是预测其占用概率。

以Object为中心的占用数据集

高质量的数据集对于基于学习的方法至关重要。然而,现有的数据集由于坐标系统不对齐和分辨率不足,无法满足作者对对象中心占用感知的要求。所以作者根据现有的3D检测数据集,用一套自己的pipiline,构建对象中心占用注释,生成了一个数据集。坐标系的定义见图3,,详细构建过程可以参考原文。

图片

基于序列的占用补全网络

图片

通过隐式解码生成动态尺寸占用空间

作者的网络主要关注由对象提议定义的兴趣区域(RoIs)。鉴于不同对象的大小不同,且同一对象的提议可能因检测不准确而异,从特征空间为每个动态大小的提议高效解码占用体积是一个重大挑战。传统的场景级占用感知方法通常应用密集卷积层来解码占用体积。然而,这种策略在动态大小对象中心占用的背景下遇到了几个限制。首先,由于作者需要跨时间戳的特征交互,不同提议的特征最好在同一大小。然而,从固定大小的特征图解码动态大小的体积对卷积来说并不简单。其次,密集卷积操作对于高占用分辨率来说计算成本很高。另一种选择是稀疏卷积,然而,它无法用正确的占用状态填充未占用的体素。

双分支 RoI 编码

有了隐式形状解码器,下一步是获得一个准确表示RoI内完整对象形状的潜在嵌入。为了实现准确的形状补全和检测,两个信息源至关重要:

  • 每个RoI的部分几何结构
  • 对象随时间的运动信息。

通过时间聚合增强特征

占用完成和检测细化

给定最终潜在嵌入Z,作者可以通过在不同位置查询隐式形状解码器D来预测每个提议的完整对象中心占用体积。在训练期间,作者从每个标注的占用中随机采样固定数量的查询位置和相应的占用状态。为确保占用预测不受偏差影响,作者采用平衡采样策略,其中从被占用体素中采样512个点,从空闲体素中采样512个点。对于与真实边界框(GT)匹配的RoI,作者使用RoI和边界框之间的相对姿态将相应的查询集转换到其坐标系中。然后,这些位置查询被发送到隐式解码器D以计算占用损失。在推理期间,作者通过在RoI的所有体素中心查询解码器来为每个RoI生成密集的占用体积。由于Z现在编码了完整对象形状的信息,它为更好的检测提供了更多的几何信息。为了保留运动信息,作者还将Z与Zg全局RoI特征融合:

损失函数

实验及结果

实现细节

为了生成网络的输入,作者首先使用FSD 和CenterPoint 作为基础检测器来生成对象提议。然后作者利用ImmortalTracker 将检测结果关联成对象轨迹提议。作者使用生成的对象轨迹提议以及GT轨迹作为训练序列。为了便于并行训练,作者在训练期间通过填充或剪切将每个轨迹规范为固定长度的32帧。为了加速收敛,作者在每个轨迹内的所有时间戳计算损失,而不仅仅是最后一个。在推理期间,模型通过查看所有历史框来输出时间戳t的精炼框。

作者在Waymo Open Dataset (WOD)上进行评估。使用官方训练集,包括798个序列进行训练,以及202个序列进行评估。

形状补全结果

与基线对比 由于对象中心占用是一个新任务,据作者所知,没有现成的基于学习的方法可以用于比较。所以,作者将其方法与直接在噪声轨迹提议中累积和体素化历史点云的基线进行比较。作者在三种类型的轨迹输入上评估形状补全性能:真实轨迹(GT),由CenterPoint(CP)生成的轨迹,以及由FSD生成的轨迹。如表1所示,形状补全性能与输入轨迹的质量密切相关,更好的轨迹导致更好的形状补全。在所有情况下,作者的方法都优于基线,即使是在输入轨迹是无噪声GT的情况下。这是因为该方法可以通过训练数据中学到的知识有效地完成对象形状,即使在早期时间戳,而基线只有在更多视图可见的后期时间戳才变得有效。

图片

鲁棒性 为了模拟不满足检测和跟踪结果,作者对GT框提议添加了一些轻微的噪声。从表1中作者可以发现,基线性能显著下降(>10% IoU),而作者的方法在这种情况下保持了稳定的性能(<5% IoU),证明了其对这些噪声和不准确轨迹的强大鲁棒性。

有真值bbox的结果 由于隐式形状解码器,作者的方法有潜力预测任何位置的占用状态。为了证明这种能力,作者通过在GT框内的所有体素中心查询隐式解码器来进行实验。如表1所示,当考虑RoI外的外推结果时,形状补全性能得到了进一步提高(Ours-E),展示了作者隐式形状表示的灵活性。

泛化能力 表1的最后一行展示了通过直接将作者训练好的模型应用于FSDv2 生成的轨迹提议所获得的占用补全结果。由于更好的检测,即使没有重新训练,作者的方法与CenterPoint相比仍然表现更好。然而,与使用FSD轨迹相比,它的表现略差,尽管FSDv2的检测结果比FSD好。这表明显著的检测改进通常会导致更好的形状补全(FSDv2与CenterPoint相比)。

目标检测结果

主要结果 表2展示了在WOD验证集上的3D检测结果。当作者的方法应用于CenterPoint 和FSD 生成的轨迹提议时,观察到了显著的改进。与之前的最先进方法MoDAR 相比,作者的方法在1帧CenterPoint上取得了更大的提升(例如,8.6%对3.2%的L1 AP改进)。将作者的方法应用于更先进的检测器,1帧FSD ,仍然可以获得显著的改进。这种增强与将MoDAR添加到类似性能的检测器(即,3帧SWFormer )相比更为显著。此外,通过将作者的方法应用于7帧FSD,作者实现了新的在线检测最先进结果,在L1和L2上分别达到了83.3% AP和75.7% APH。这表明作者的方法在对象检测中有效地聚合了长序列信息,除了形状补全。此外,作者的方法可以无缝集成到其他最先进的检测器中,而无需在训练数据中重新训练它们各自的轨迹。

图片

范围细分 远距离对象由于稀疏性更难以检测。作者进一步分析了不同距离范围的检测性能。如表3所示,随着距离的增加,作者对基线检测器的改进变得更加显著。这表明作者的方法通过形状补全有效地解决了远距离对象的稀疏性问题。

图片

模型分析

在这一部分,作者评估了作者方法中不同设计选择的性能,并分析了它们对形状补全和检测性能的影响。

图片

占用任务帮助检测任务 最后,作者评估了占用任务对检测性能的影响。作者从完整模型中移除了OCC头,并仅使用检测损失重新训练。如表4最后一行所示,缺少占用解码器会导致检测性能显著下降。这表明占用补全任务不仅明确丰富了对象形状表示,而且还通过为潜在空间提供额外的几何信息来增强检测。

训练和测试的长度 表5显示了序列长度对作者方法性能的影响。作者使用8帧和16帧轨迹重新训练作者的方法。如表5的前3行所示,使用更长的序列进行训练可以带来更好的结果。然而,当序列长度翻倍时,性能提升逐渐减少。为了在性能和计算成本之间取得平衡,作者将默认训练长度设置为32。

图片

计算效率 表6显示了所提出的形态解码器的时间和GPU内存成本。由于对象轨迹的长度不同,作者方法的运行时间也可能因不同的输入而异。此外,解码的对象中心占用的维度取决于检测到的边界框。为了公平测试运行时间,作者将输入长度标准化为32,并将解码查询的数量设置为4096。如表6所示,形态解码器仅引入了轻微的计算成本增加,展示了其效率。

图片

总结和局限

局限

从技术角度讲,作者的自动占用注释依赖于刚体假设,这可能不适用于可变形物体。因此,作者的实验专注于车辆对象,因为它们是刚性的。尽管作者的方法可以应用于其他可变形对象类别,但由于真实数据中的大量噪声,对可变形物体的准确评估无法得到保证。

总结

在这项工作中,作者引入了一个新任务,以对象为中心的占用,它扩展了传统的对象边界框表示,以提供对对象形状的更详细描述。与场景级对应物相比,对象中心占用通过关注前景对象,在大场景中实现了更高的体素分辨率。为了促进对象中心占用学习,作者使用激光雷达数据和Waymo Open Dataset (WOD)中的框注释构建了一个对象中心占用数据集。进一步提出了一个基于序列的占用补全网络,该网络从作者的数据集中学习,以从不准确的对象提议中补全对象形状。该方法在WOD上的形状补全和对象检测任务上都取得了最先进的性能。

责任编辑:张燕妮 来源: 自动驾驶之心
相关推荐

2024-09-30 09:35:55

图像生成AI

2023-10-04 09:36:58

3D模型

2023-09-25 14:53:55

3D检测

2017-07-11 15:00:04

前端CSS3D视角

2021-06-18 05:59:37

Css前端CSS 特效

2012-10-16 10:41:31

云计算应用架构

2019-11-29 09:30:37

Three.js3D前端

2022-09-14 09:23:51

Java3D引擎

2024-12-16 14:40:00

AI模型训练

2024-05-16 09:24:17

3D技术

2018-09-21 09:15:47

苹果 iOS技术

2012-12-24 08:48:25

iOSUnity3D

2015-09-10 13:28:51

畅享网

2012-04-24 15:07:49

HTML5

2023-12-01 10:37:20

自动驾驶3D

2012-07-30 09:48:32

设计管理

2024-06-11 07:02:00

大模型3D内容生成技术

2012-11-13 10:52:15

大数据3D可视化

2014-07-28 17:09:54

Cocos

2024-01-29 06:50:00

3D模型
点赞
收藏

51CTO技术栈公众号