写在前面 & 笔者的个人理解
交互式分割在促进未来LiDAR数据集的注释过程中起着重要作用。现有的方法在每次激光雷达扫描时顺序分割单个物体,在整个序列中重复这一过程,这是多余且无效的。在这项工作中,我们提出了交互式4D分割,这是一种新的范式,允许同时分割多个LiDAR扫描上的多个目标,以及交互式4D,这是第一个交互式4D分割模型,通过利用LiDAR数据的顺序特性,在一次迭代中分割叠加的连续LiDAR打印上的多目标。在执行交互式分割时,我们的模型利用了整个时空体积,从而实现了更高效的分割。在4D卷上操作时,它可以随时间直接提供一致的实例ID,并简化跟踪注释。此外,我们还表明,点击模拟对于在LiDAR点云上成功进行模型训练至关重要。为此我们设计了一种更适合激光雷达数据特性的点击模拟策略。为了证明其准确性和有效性,我们在多个LiDAR数据集上评估了Interactive4D,其中Interactive4D在很大程度上达到了新的最先进水平。
- 开源链接:https://vision.rwth-aachen.de/Interactive4D
总结来说,本文的贡献是:
- 提出了交互式4D分割,这是一种新的范式,通过利用激光雷达数据的顺序特性,一次对多个扫描中的多个目标进行交互式分割。
- 介绍了Interactive4D,这是第一个交互式4D分割模型,能够准确分割时空点云上的事物和内容,同时随着时间的推移为跟踪任务提供一致的实例ID。
- 设计了一种新的点击模拟策略,更适合激光雷达数据的特点。
- 我们在多个LiDAR数据集上实现了最先进的性能,并通过与人类注释者的用户研究证明了Interactive4D在真实注释案例中的有效性。
相关工作回顾
激光雷达全景分割和跟踪。LiDAR全景分割(LPS)统一了LiDAR点云的语义和实例分割。最近,它已被扩展到4D激光雷达全景分割(4D-LPS)的子任务跟踪,该分割结合了语义、实例分割和跟踪。两种LPS方法都遵循类似的算法范式。它们之间的根本区别在于,LPS方法在单次激光雷达扫描上运行,而4D-LPS方法主要在叠加的连续激光雷达扫描下运行以完成跟踪。根据它是在单次扫描还是叠加的连续扫描上运行,假设用户提供了预测掩模的语义标签,Interactive4D可以作为LPS或4D-LPS方法。它通过整合用户输入来执行分割和跟踪,能够通过细化点击来改善结果。随后,我们证明了Interactive4D在LPS和4D-LPS任务中以最小的用户输入都优于最先进的结果,并通过额外的用户输入进一步改进了它们。
交互式3D分割。2D交互式分割已经建立得很好,然而,采用它来生成3D标签会由于视场、视角和校准误差的差异而导致不完美。为此,InterObject3D解决了室内点云的交互式分割问题,重点是单目标交互式分割。后来,AGILE3D提出了室内点云的多目标交互式分割,显著提高了效率。本文探索了LiDAR点云的多目标交互式分割,并进一步将多目标LiDAR交互式分割扩展到4D设置,旨在最大限度地提高效率。最近的一些工作研究了室外LiDAR点云的3D交互式分割。CRSNet专注于仅交互式分割物体,并遵循LiDAR数据中的单物体范式。ClickFormer是一项并行工作,它交互式地分割事物,并通过在扫描过程中填充额外的增强点击来解决LiDAR数据中目标的比例差异,同样遵循单目标范式。相比之下,Interactive4D旨在处理4D设置中事物的多目标交互式LiDAR分割,通过在空间和时间上全面利用上下文来最大限度地提高效率。
详解Interactive4D
受基于注意力的交互式分割模型成功的启发,我们添加了关键的技术修改,以实现此类模型在LiDAR点云中的全部潜力,并引入了交互式4D,我们的交互式4D分割模型,如图2所示。为了清楚起见,我们使用矩阵表示法来呈现整个过程。
细化:该模块由L个连续的点击关注层组成,这些层细化了点击查询Q和体素特征F。在每一层中,Q通过交叉注意力来关注F。然后,Q使用self-att。最后,F交叉注意Q以细化特征表示。这种渐进式的改进在L层中重复进行,从而得到最终的Q和F。
训练损失如下所示:
单击“模拟策略”。(图2)交互式分割模型依赖于标注输入来迭代改进预测,但在训练过程中让人类参与是不切实际的。相反,合成点击是基于预测和GT进行模拟的。仿真策略应该:(1)将模型的学习集中在误差区域,以减少交互来提高准确性,以及(2)尽量减少训练和实际使用之间的差距。交互式3D分割模型中采用了两种主要类型的点击模拟。受2D模拟的启发,在密集数据下运行的模型采用了边界相关(BD)点击策略。该方法使用以下度量选择离边界最远的点:
近期的方法通过采用完全随机点击来缓解这个问题,大大减少了所需的计算。然而,这两种方法仍然存在两个关键局限性:(1)偏向较大目标:在多目标交互式分割中,必须首先识别错误区域,因为错误可能存在于各种目标中。BD选择通过用max操作切换等式(iv)中的arg-max来隐式地确定区域的误差大小。这种方法倾向于将点击偏向于较大的物体(例如建筑物),而忽略较小的物体(如自行车)(图3左)。同样的问题也适用于随机点击策略,因为随机分布自然会忽略较小的目标,使其在训练过程中代表性不足。(2) 非信息性初始点击:在密集数据中,选择离边界最远的点是有效的,因为它通常会捕获错误区域的“中心”。然而,在稀疏的LiDAR点云中,由于周围的空白空间,这通常会导致错误区域边缘附近的点击错误(图3右)。这是因为误差区域外的点决定了边界。完全随机点击也面临着类似的问题,因为选择不是集中在特定的错误区域,而是不加选择地针对整个错误集。
为了解决上述缺点,我们提出了一种新的点击选择策略,将该过程分为两个单独的步骤:(1)尺度不变误差区域选择(SI):为了应对较大目标的过度优先级,我们提出一种基于IoU的度量来确定最大误差区域,确保尺度不变性:
这种方法优先考虑覆盖目标大部分的错误区域,特别是那些IoU较低的区域,以防止较小的目标被忽视。这使得训练过程中的点击分布更加平衡,使模型能够学习更全面的特征表示。(2)错误区域内的增强点击选择:与之前依赖数据库的工作类似,我们的目标是为初始点击选择地面真实掩模的“中心”,因为这通常会捕捉到区域的关键特征。为了确保在稀疏域中进行信息选择,我们将中心定义为最接近目标质心的点,通常在实体分割开始时捕获最具代表性的区域。然而,对于细化点击——误差区域在点云中变得很小且分散——质心选择的有效性降低,真实用户很难遵循。为了解决这个问题,我们建议在误差区域内切换到随机点选择以进行细化点击。与[15,46]不同,我们只在识别出错误区域后才执行随机选择。随机性的注入通过学习不同的特征使模型对用户行为更加鲁棒。
我们的方法简化并解耦了决策过程。由于在训练过程中多次调用点击模拟器,它加速了训练并显著降低了内存需求。与限制目标数量或只关注事物以管理计算成本的方法不同,我们的方法避免了这些权衡。这实现了更快的训练、整体分割和4D数据的可扩展性,其中点的数量显著增加。图3显示了我们提出的策略修改的总体效果。
实验结果
结论
本文引入了交互式4D分割,这是一种新的范式,用户可以在多个扫描中同时分割多个目标,以及交互式4D,这是遵循这一范式的第一种交互式4D分割方法。交互式4D比以前的方法更有效,仅限于单个目标和单个扫描。除了我们适用于稀疏LiDAR扫描的新点击模拟策略外,它还显示了出色的精度结果,并大幅达到了最先进的性能。我们希望Interactive4D能够减少未来LiDAR数据集所需的标注工作。