扩散一切？3DifFusionDet：扩散模型杀进LV融合3D目标检测！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

笔者的个人理解

近年来，扩散模型在生成任务上非常成功，自然而然被扩展到目标检测任务上，它将目标检测建模为从噪声框(noisy boxes)到目标框(object boxes)的去噪扩散过程。在训练阶段，目标框从真值框(ground-truth boxes)扩散到随机分布，模型学习如何逆转这种向真值标注框添加噪声过程。在推理阶段，模型以渐进的方式将一组随机生成的目标框细化为输出结果。与传统目标检测方法相比，传统目标检测依赖于一组固定的可学习查询，3DifFusionDet不需要可学习的查询就能进行目标检测。

3DifFusionDet的主要思路

3DifFusionDet框架将3D目标检测表示为从有噪声的3D框到目标框的去噪扩散过程。在这个框架中，真值框以随机分布扩散进行训练，模型学习反向噪声过程。在推理过程中，模型逐渐细化了一组随机生成的框。在特征对齐策略下，渐进细化方法可以对激光雷达-Camera融合做出重要贡献。迭代细化过程还可以通过将该框架应用于需要不同级别的精度和速度的各种检测环境，从而显示出极大的适应性。KITTI是一个真实交通目标识别的基准，在KITTI上进行了大量的实验表明，与早期的检测器相比，在KITTI能够取得良好的性能。

3DifFusionDet主要贡献如下：

将3D目标检测表示为生成式去噪过程，并提出了 3DifFusionDet，这是第一个将diffusion模型应用于 3D目标检测的研究。
研究了生成去噪过程框架下的最佳Camera-LiDAR 融合对齐策略，并提出了 2 个分支融合对齐策略以利用两种模态提供的互补信息。
在 KITTI 基准测试上进行了大量的实验。与现有精心设计的方法相比，3DifFusionDet 取得了有竞争力的结果，展示了diffusion模型在 3D目标检测任务中的前景。

使用 LiDAR-Camera融合进行 3D 目标检测

对于 3D 目标检测，Camera和 LiDAR 是两种互补的传感器类型。LiDAR 传感器专注于 3D 定位，并提供有关 3D 结构的丰富信息，而Camera则提供颜色信息，从中可以导出丰富的语义特征。为了通过融合来自摄像机和 LiDAR 的数据来准确检测 3D 目标，人们做出了许多努力。最先进的方法主要基于 LiDAR 基于 3D 目标检测器，并努力将图像信息纳入 LiDAR 检测流程的各个阶段，因为基于 LiDAR 的检测方法的性能明显优于基于Camera的方法。由于基于激光雷达和基于Camera的检测系统的复杂性，将两种模式结合起来必然会增加计算成本和推理时间延迟。因此，有效融合多种模式信息的问题仍然存在。

扩散模型

扩散模型是一种生成模型，它通过引入噪声来逐渐解构观察到的数据，并通过反转该过程来恢复原始数据。扩散模型和去噪分数匹配通过去噪扩散概率模型连接起来（Ho、Jain 和 Abbeel 2020a），该模型最近引发了人们对计算机视觉应用的兴趣。已被多个领域应用，例如图生成、语言理解、鲁棒学习和时态数据建模等。
扩散模型在图像生成和合成方面取得了巨大成功。一些先驱作品采用扩散模型进行图像分割任务。与这些领域相比，它们在目标检测方面的潜力尚未得到充分开发。以前使用扩散模型进行对象检测的方法仅限于 2D 边界框。与 2D 检测相比，3D 检测提供了更丰富的目标空间信息，可以实现准确的深度感知和体积理解，这对于自动驾驶等应用至关重要，在自动驾驶等应用中，识别周围车辆的精确距离和方向是自动驾驶等应用的重要方面。

3DifFusionDet的网络设计

图 1 显示了 3DifFusionDet 的整体架构。其接受多模式输入，包括 RGB 图像和点云。将整个模型分为特征提取和特征解码部分，与 DiffusionDet相同，在每个迭代步骤中直接应用于原始 3D 特征会很困难。特征提取部分仅运行一次，以从原始输入 X 中提取深层特征表示，而特征解码组件将此深层特征作为条件并训练以逐步从噪声框中绘制框预测。

为了充分利用两种模态提供的互补信息，将每种模态的编码器和解码器分开。此外，使用扩散模型分别生成噪声框和，分别训练图像解码器和点云解码器以细化 2D 和 3D 特征。至于这两个特征分支的连接，简单地连接它们会导致信息剪切，从而导致性能下降。为此，引入了多头交叉注意机制来深度对齐这些特征。这些对齐的特征被输入到检测头以预测最终的真值，而不会产生噪声。

对于点云编码器，使用基于体素的方法进行提取，并采用基于稀疏的方法进行处理。基于体素的方法将 LiDAR 点转换为体素。与其他系列的点特征提取方法（例如基于点的方法）相比，这些方法将点云离散为等间距的 3D 网格，在尽可能保留原始 3D 形状信息的同时减少内存需求。基于稀疏性的处理方法进一步帮助网络提高计算效率。这些好处平衡了扩散模型相对较高的计算要求。

与 2D 特征相比，3D 特征包含额外的维度，使得学习更具挑战性。考虑到这一点，除了从原始模态提取特征之外，还添加了一条融合路径，将提取的图像特征添加为点编码器的另一个输入，促进信息交换并利用来自更多样化来源的学习。采用PointFusion 策略，其中来自 LiDAR 传感器的点被投影到图像平面上。然后，图像特征和对应点的串联由 VoxelNet 架构联合处理。

特征解码器。提取的图像特征和提取的点特征用作相应图像和点解码器的输入。每个解码器还结合了来自独特创建的噪声框或的输入，除了相应的提取特征之外，还可以学习分别细化 2D 和 3D 特征。

图像解码器受到 Sparse RCNN的启发，接收来自 2D 提议框集合的输入，以从图像编码器创建的特征图中裁剪 RoI 特征。点解码器接收来自 3D 提议框集合的输入，以从图像编码器创建的特征图中裁剪 RoI 特征。对于点解码器，输入是一组 3D 提议框，用于从点编码器生成的特征图中裁剪 3D RoI 特征。

交叉注意力模块。在对两个特征分支进行解码之后，需要一种将它们组合起来的方法。一种直接的方法是通过连接这两个功能分支来简单地连接它们。这种方式显得过于粗糙，可能会导致模型遭受信息剪切，导致性能下降。因此，引入了多头交叉注意机制来深度对齐和细化这些特征，如图 1 所示。具体来说，点解码器的输出被视为 k 和 v 的源，而图像解码器的输出被投影到 q 上。

实验结果

在 KITTI 3D 目标检测基准上进行实验。遵循用于测量检测性能的标准 KITTI 评估协议 (IoU = 0.7)，表 1 显示了 3DifFusionDet 方法与 KITTI 验证集上最先进的方法相比的平均精度 (mAP) 分数。报告了的性能，遵循 [diffusionDet, difficileist] 并粗体显示每个任务的两个性能最佳的模型。

根据表 1，与基线相比，本文的方法显示出显着的性能改进。当 D = 4 时，它能够以相对较短的推理时间超越大多数基线。通过进一步增加 D 使得 D = 8，考虑到更长的推理时间，在所有模型中实现了最佳性能。这种灵活性揭示了广泛的潜在用途。

消融实验 首先，展示了保持图像 RoI 对齐分支和编码器特征融合的必要性。要使用扩散模型从Camera和激光雷达设计 3D 目标检测器，最直接的方法应该是直接应用生成的噪声 3D 框作为融合 3D 特征的输入。然而，这种方式可能会受到信息剪切的影响，从而导致性能下降，如表2所示。利用它，除了将点云RoIAlign放在编码的3D特征下之外，我们还创建了第二个分支，使图像RoIAlign 在编码的 2D 特征下。显着提高的性能表明可以更好地利用两种模式提供的补充信息。

然后分析使用不同融合策略的影响：给定学习的 2D 和 3D 表示特征，如何更有效地组合。与 2D 特征相比，3D 特征包含一个额外的维度，这使得它们学习起来更具挑战性。通过附加投影来自 LiDAR 传感器的点，使用图像特征和要联合处理的对应点的串联，添加从图像特征到点特征的信息流路径 VoxelNet 架构。表 3 显示了其对检测精度的好处。

需要融合的另一部分是解码后两个特征分支的连接。在这里，应用了多头交叉注意机制来深度对齐和细化这些特征。除此之外，还研究了更直接的方法，例如使用串联运算、求和运算、直接乘积运算以及使用多层感知器（MLP）。结果如表4所示。其中，交叉注意力机制表现出最好的性能，训练和推理速度几乎相同。

研究准确性和推理速度的权衡。通过比较 3D 检测精度和每秒帧数 (FPS)，展示了选择不同提案框以及 D 的影响。提案框的数量从 100、300 中选择，而 D 从 1, 4, 8 中选择. 运行时间是在批量大小为 1 的单个 NVIDIA RTX A6000 GPU 上进行评估的。结果发现，将提案框的数量从 100 增加到 300 可显着提高准确性增益，而延迟成本可以忽略不计（1.3 FPS 与 1.2 FPS）。另一方面，更好的检测精度会导致更长的推理时间。当将 D 从 1 更改为 8 时，3D 检测精度从急剧（Easy：87.1 mAP 到 90.5 mAP）增加到相对缓慢（Easy：90.5 AP 到 91.3 mAP），而 FPS 不断下降。

Case研究和未来的工作基于其独特的属性，本文讨论了 3DifFusionDet 的潜在用途。一般来说，准确、鲁棒和实时的推断是目标检测任务的三个要求。在自动驾驶汽车的感知领域，考虑到高速行驶的汽车由于惯性需要花费额外的时间和距离来减速或改变方向，因此感知模型对实时性要求特别敏感。更重要的是，为了保证舒适的乘坐体验，汽车应该在安全的前提下，以最小的加速度绝对值尽可能平稳地行驶。与其他同类自动驾驶汽车产品相比，其主要优势之一就是拥有更流畅的乘坐体验。为此，无论是加速、减速还是转弯，自动驾驶汽车都应该开始快速做出反应。汽车响应越快，为后续操作和调整赢得的空间就越大。这比首先获得最精确的检测到的目标的分类或位置更重要：当汽车开始响应时，仍然有时间和距离来调整其行为方式，可以利用这些时间和距离以更精确的方式做出进一步的推断，其结果随后微调汽车的驾驶操作。

本文的 3DifFusionDet 自然满足了需求。如表4所示，当推理步长较小时，模型可以快速做出推理，并得到大致较高准确度的结果。这种最初的感知足够精确，足以让自动驾驶汽车开始新的响应。随着推理步骤的增长，会生成更准确的检测目标，从而进一步微调其响应。这种渐进式检测方式非常适合这项任务。此外，由于本文的模型可以在参考过程中改变提案框的数量，因此从小步骤获得的先验信息可以反过来用于优化实时提案框的数量。如表 4 所示，不同先验提案框下的性能有所不同。因此，开发这种自适应探测器是一项前景光明的工作。

除了自动驾驶汽车之外，本文的模型本质上匹配任何在连续反应空间中需要短推断时间的现实场景，特别是在检测器根据检测结果移动的场景中。受益于扩散模型的性质，3DifFusionDet 可以快速找到几乎准确的真实空间感兴趣区域，触发机器开始进行新的操作和自我优化。接下来的更高精度的感知机进一步微调机器的操作。为了将模型部署到这些移动探测器中，一个悬而未决的问题是结合较大步骤的早期推断和较小步骤的最新推断之间的推断信息的策略，这是另一个悬而未决的问题。

总结

本文介绍了 3DifFusionDet，这是一种具有强大 LiDAR 和Camera融合功能的新型 3D 目标检测器。将 3D 目标检测表述为生成式去噪过程，这是第一个将扩散模型应用于 3D 目标检测的工作。这项工作在生成去噪过程框架的背景下研究了最有效的Camera激光雷达融合对准策略，并提出了融合对准策略以充分利用两种模式提供的补充信息。与成熟的检测器相比，3DifFusionDet 取得了良好的性能，展示了扩散模型在目标检测任务中的广阔前景。强大的学习结果和灵活的推理模式使其具有广阔的潜在用途。

原文链接：https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA