CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

原标题：Towards Realistic Scene Generation with LiDAR Diffusion Models

论文链接：https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

代码链接：https://lidar-diffusion.github.io

作者单位：CMU 丰田研究院南加州大学

论文思路：

扩散模型（DMs）在逼真的图像合成方面表现出色，但将其适配到激光雷达场景生成中却面临着重大挑战。这主要是因为在点空间运作的DMs 难以保持激光雷达场景的曲线样式和三维几何特性，这消耗了它们大部分的表征能力。本文提出了激光雷达扩散模型（LiDMs），这一模型通过在学习流程中融入几何先验，能够从为捕获激光雷达场景的真实感而定制的隐空间中生成逼真的激光雷达场景。本文的方法针对三个主要愿望：模式的真实性、几何的真实性和物体的真实性。具体来说，本文引入了曲线压缩来模拟现实世界的激光雷达模式，点级(point-wise)坐标监督来学习场景几何，以及块级(patch-wise)编码以获得完整的三维物体上下文。凭借这三个核心设计，本文在无条件激光雷达生成的64线场景中建立了新的SOTA，同时与基于点的DMs相比保持了高效率（最高可快107倍）。此外，通过将激光雷达场景压缩到隐空间，本文使 DMs 能够在各种条件下控制，例如语义地图、相机视图和文本提示。

主要贡献：

本文提出了一种新颖的激光雷达扩散模型（LiDM），这是一种生成模型，能够用于基于任意输入条件的逼真激光雷达场景生成。据本文所知，这是第一个能够从多模态条件生成激光雷达场景的方法。

本文引入了曲线级压缩以保持逼真的激光雷达模式，点级坐标监督以规范场景级几何的模型，并且引入了块级编码以完全捕捉3D物体的上下文。

本文引入了三个指标，用于在感知空间中全面且定量地评估生成的激光雷达场景质量，比较包括距离图像、稀疏体积和点云等多种表示形式。

本文的方法在64线激光雷达场景的无条件场景合成上实现了最新水平，并且相比于基于点的扩散模型实现了高达107倍的速度提升。

网络设计：

近年来，条件生成模型的发展迅猛，这些模型能够生成视觉上吸引人且高度逼真的图像。在这些模型中，扩散模型（DMs）凭借其无可挑剔的性能，已经成为最受欢迎的方法之一。为了实现任意条件下的生成，隐扩散模型（LDMs）[51] 结合了交叉注意力机制和卷积自编码器，以生成高分辨率图像。其后续扩展（例如，Stable Diffusion [2], Midjourney [1], ControlNet [72]）进一步增强了其条件图像合成的潜力。

这一成功引发了本文的思考：我们能否将可控的扩散模型（DMs）应用于自动驾驶和机器人技术中的激光雷达场景生成？例如，给定一组边界框，这些模型能否合成相应的激光雷达场景，从而将这些边界框转化为高质量且昂贵的标注数据？或者，是否有可能仅从一组图像生成一个3D场景？甚至更有野心地，我们能设计出一个由语言驱动的激光雷达生成器来进行可控模拟吗？为了回答这些交织在一起的问题，本文的目标是设计出能够结合多种条件（例如，布局、相机视角、文本）来生成逼真激光雷达场景的扩散模型。

为此，本文从最近自动驾驶领域的扩散模型（DMs）工作中获取了一些见解。在[75]中，介绍了一种基于点的扩散模型（即LiDARGen），用于无条件的激光雷达场景生成。然而，这个模型往往会产生嘈杂的背景（如道路、墙壁）和模糊不清的物体（如汽车），导致生成的激光雷达场景与现实情况相去甚远（参见图1）。此外，在没有任何压缩的情况下对点进行扩散，会使得推理过程计算速度变慢。而且，直接应用 patch-based 扩散模型（即 Latent Diffusion [51]）到激光雷达场景生成，无论是在质量上还是数量上，都未能达到令人满意的性能（参见图1）。

为了实现条件化的逼真激光雷达场景生成，本文提出了一种基于曲线的生成器，称为激光雷达扩散模型（LiDMs），以回答上述问题并解决近期工作中的不足。LiDMs 能够处理任意条件，例如边界框、相机图像和语义地图。LiDMs 利用距离图像作为激光雷达场景的表征，这在各种下游任务中非常普遍，如检测[34, 43]、语义分割[44, 66]以及生成[75]。这一选择是基于距离图像与点云之间可逆且无损的转换，以及从高度优化的二维卷积操作中获得的显著优势。为了在扩散过程中把握激光雷达场景的语义和概念本质，本文的方法在扩散过程之前，将激光雷达场景的编码点转换到一个感知等效的隐空间(perceptually equivalent latent space)中。

为了进一步提高真实世界激光雷达数据的逼真模拟效果，本文专注于三个关键组成部分：模式真实性、几何真实性和物体真实性。首先，本文利用曲线压缩在自动编码过程中保持点的曲线图案，这一做法受到[59]的启发。其次，为了实现几何真实性，本文引入了点级坐标监督，以教会本文的自编码器理解场景级别的几何结构。最后，本文通过增加额外的块级下采样策略来扩大感受野，以捕捉视觉上较大物体的完整上下文。通过这些提出的模块增强，所产生的感知空间使得扩散模型能够高效地合成高质量的激光雷达场景（参见图1），同时在性能上也表现出色，与基于点的扩散模型相比速度提升了107倍（在一台NVIDIA RTX 3090上评估），并支持任意类型的基于图像和基于 token 的条件。

图1. 本文的方法（LiDM）在无条件的激光雷达逼真场景生成方面确立了新的SOTA，并标志着从不同输入模态生成条件化激光雷达场景方向上的一个里程碑。

图2. 64线数据上 LiDMs 的概览，包括三个部分：激光雷达压缩（参见第3.3节和3.5节）、多模态条件化（参见第3.4节）以及激光雷达扩散（参见第3.5节）。

实验结果：

图3. 在64线场景下，来自 LiDARGen [75]、Latent Diffusion [51] 以及本文的 LiDMs 的例子。

图4. 在32线场景下，来自本文 LiDMs 的例子。

图5. 在SemanticKITTI [5]数据集上，用于语义地图到激光雷达生成的本文的 LiDM 的例子。

图6. 在KITTI-360 [37]数据集上，用于条件相机到激光雷达生成的 LiDM 的例子。橙色框表示输入图像所覆盖的区域。对于每个场景，KITTI-360提供一个视角，它只覆盖了场景的一部分。因此，LiDM 对相机覆盖的区域执行条件生成，对其余未观测到的区域执行无条件生成。

图7. 在64线场景下，用于 zero-shot 文本到激光雷达生成的 LiDM 的例子。橙色虚线框起的区域表示受条件影响的区域，绿色框突出显示了可能与提示词相关联的物体。

图8. 总体缩放因子（）与采样质量（FRID和FSVD）的对比。本文在KITTI-360 [37]数据集上比较了不同规模的曲线级编码（Curve）、块级编码（Patch）以及带有一（C+1P）或两（C+2P）阶段块级编码的曲线级编码。

图9. LiDM 的例子，包括有或没有点级监督，如第3.3节所提出的。

总结：

本文提出了激光雷达扩散模型（LiDMs），这是一个用于激光雷达场景生成的通用条件化框架。本文的设计着重于保留曲线状的图案以及场景级别和物体级别的几何结构，为扩散模型设计了一个高效的隐空间，以实现激光雷达逼真生成。这种设计使得本文的 LiDMs 在64线场景下能够在无条件生成方面取得有竞争力的性能，并在条件生成方面达到了最先进的水平，可以使用多种条件对 LiDMs 进行控制，包括语义地图、相机视图和文本提示。据本文所知，本文的方法是首次成功将条件引入到激光雷达生成中的方法。

引用：

@inproceedings{ran2024towards,
title={Towards Realistic Scene Generation with LiDAR Diffusion Models},
author={Ran, Haoxi and Guizilini, Vitor and Wang, Yue},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2024}
}