直接暴涨十个点！地平线提出DOME：扩散和Occ双管齐下，打造超真实世界模型！-51CTO.COM

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面 && 笔者理解

在任何一组东西中，最重要的只占其中一小部分，约20%，其余80%尽管是多数，却是次要的，这就是著名的“二八定律”。而自动驾驶发展至今，解决剩余20%的“重要的”长尾问题和极端案例一直是一件比较棘手的事情。即使是最先进的SOTA和最广泛的数据收集工作也难以解决。而解决这些挑战的一个有希望的方法在于世界模型。世界模型结合了历史上下文和其它智能体的行动来预测环境观察的未来演变。这允许自动驾驶模型更深入地预测未来，改进行动可行性的评估。

世界模型可以分为几种类型：包括基于2D视频的模型和基于3D表示的模型，比如利用LiDAR和占用框架的模型。前者基于视频的世界模型在维持跨视图和跨时间一致性方面会面临一些挑战，从而阻碍了它们在现实世界场景中的应用。而基于占用的世界模型避免了这个问题。这些模型以历史占用序列作为输入，并预测未来的占用观察，用原始的3D表示确保了内在的3D一致性。另外，占用标注相对容易获得，因为它们可以有效地从稀疏的LiDAR标注中学习，或者可能通过时间帧的自监督学习获得。基于占用的模型也是模态不确定的，表明它们可以从单目或环视相机生成，或者从LiDAR传感器生成。

现有的基于占用的世界模型可以分为两种类型：基于自回归的和基于扩散的：

基于自回归的方法以自回归的方式使用离散标记预测未来的占用。然而，由于这些方法依赖于离散标记器，量化过程导致信息丢失，限制了预测高保真占用的能力。此外，自回归方法难以生成真实的长时间占用序列。
基于扩散的方法将空间和时间信息展平为一维的标记序列，而不是单独处理它们，导致在有效捕获空间时间信息方面存在困难。因此，将历史占用信息整合到模型中变得困难，因为空间和时间数据被结合在一起。这种限制意味着模型可以生成输出，但不能预测，限制了其在现实世界场景中的适用性。此外，作者发现大多数占用世界模型对细粒度控制的探索不足，导致过度拟合特定场景，限制了它们对下游任务的适用性。

为了解决上述问题，作者提出了一种预测未来占用帧的新方法，称为DOME。具体来说，作者的方法包括两个组件：Occ-VAE和DOME。为了克服离散标记的限制，作者的Occ-VAE使用连续的潜在空间来压缩占用数据。这允许有效的压缩，同时保留高保真细节。作者世界模型展示了两个关键特征：

高保真度和长时生成。作者采用时空扩散变换器来预测未来的占用帧。通过利用上下文占用条件，作者将历史占用信息作为输入。时空架构有效地捕获了空间和时间信息，实现了精细细节，并能够生成长时预测（32秒）。
细粒度可控性。作者通过引入轨迹重采样方法来解决预测中的精确控制挑战，这显著提高了模型生成更精确和多样化占用预测的能力。

相关工作

3D 占用预测

3D 占用预测任务涉及预测每个3D体素的占用状态和语义标签。最近的方法专注于基于视觉的占用预测，使用图像作为输入。这些方法可以根据它们的特征增强分为三种主流类型：鸟瞰图（BEV）、三视角图（TPV）和基于体素的方法。

基于BEV的方法在BEV空间中学习特征，对遮挡不太敏感。它首先使用主干网络提取2D图像特征，应用视点变换以获得BEV特征，最后使用3D占用头进行预测。然而，由于其自上而下的投影，BEV方法难以传达详细的3D信息。为了解决这个限制，基于TPV的方法利用三个正交投影平面，增强了描述细粒度3D结构的能力。这些方法同样提取2D图像特征，然后将它们提升到三个平面上，然后将投影的特征相加以形成3D空间表示。与这些基于投影的方法相对，基于体素的方法直接从原始3D空间学习，有效地捕获了全面的空间信息。这些方法从主干网络提取2D图像特征，并将它们转换为3D表示，然后由3D占用头处理以进行占用预测。

自动驾驶世界模型

世界模型是智能体周围环境的表示。给定智能体的行动和历史观察，它预测下一个观察，帮助智能体对其环境有一个全面的了解。最近的方法旨在通过整合不同的模态，如点云或3D占用，来扩展自动驾驶世界模型。基于LiDAR的世界模型预测4D LiDAR点云。Copilot4D是一种使用VQVAE和离散扩散来预测未来观察的世界建模方法。它在几个数据集上提高了50%以上的预测精度，展示了GPT类无监督学习在机器人技术的潜力。另一种方法是基于占用的世界模型，它通过3D占用预测未来场景。OccWorld是一个用于自动驾驶的3D世界模型，它使用3D占用预测自我车辆的运动和周围场景的演变。OccSora是一个基于扩散的模型，用于模拟自动驾驶中3D世界的演变。它使用4D场景标记器和DiT世界模型进行占用生成，辅助自动驾驶中的决策。

模型框架

作者介绍了DOME，一个基于扩散的占用世界模型。作者的方法由两个主要组件组成：Occ-VAE和DOME。为了使世界模型与轨迹条件对齐，作者提出了轨迹编码器和轨迹重采样技术，专门设计用于增强模型的可控性。

Occ-VAE

Occ-VAE是作者模型的核心组件，它使用变分自编码器（VAE）将占用数据压缩到潜在空间，这对于提高表示的紧凑性和世界模型预测的效率至关重要。注意到离散标记器通常无法保留占用帧的精细细节，作者提出将密集的占用数据编码到连续的潜在空间中，以更好地保留复杂的空间信息。如图2所示的提出的架构，细节如下：

DOME：基于扩散的占用世界模型

轨迹作为条件

轨迹重采样：这个问题源于训练数据集中的不平衡和有限多样性。例如，在nuScenes数据集中，训练集包含700个场景，但大多数涉及车辆直行（大约87%，见图4（c）），突出了不平衡问题。此外，在同一场景中，车辆只通过一次，导致在相同场景下不同轨迹条件下缺乏多样化的3D占用样本。这导致模型过度拟合场景，仅根据上下文观察学习基于真实特征的观察。原始轨迹分布如图4（a）所示。

作者的重采样轨迹分布如图4（b）所示。与图4（a）相比，它填补了轨迹分布的空白，表明作者的方法增强了多样性并减轻了不平衡。图4（c）所示的驾驶方向直方图进一步支持了这种改进。

总之，作者的轨迹重采样方法既简单又有效。据作者所知，作者是第一个探索世界模型预测的占用数据增强。这种方法具有很高的通用性，可以应用于所有类型的占用数据，包括机器标注的、LiDAR收集的或自监督的数据。它只需要姿态和占用数据，而不需要LiDAR数据或3D边界框。

世界模型的应用

实验结果

实验设置

作者在nuScenes数据集上进行实验，使用IoU（交并比）和mIoU（平均交并比）指标来评估占用重建和4D占用预测。更高的IoU和mIoU值表明在压缩过程中信息丢失较少，反映了更好的重建性能，并展示了对未来周围环境更准确的理解。

占用重建

尽可能压缩的同时精确重建占用对于下游任务如预测和生成至关重要。在这里，作者将Occ-VAE与使用占用标记器的现有方法进行比较，并评估它们的重建精度。占用重建的定量结果如表1所示。作者在IoU和mIoU指标上都实现了最先进的重建性能，分别为83.1%的mIoU和77.3%的IoU。

4D占用预测

作者在各种设置下将其方法与现有的4D占用预测方法进行比较。这些设置包括使用地面实况3D占用数据（-O）作为输入，以及使用现成的3D占用预测器（-F）的预测结果作为输入。按照Wei et al.（2024）的实验设置，作者使用FB-OCC作为占用提取器，利用来自相机输入的预测。

定性结果如图5所示。定量结果如表2所示，表明作者的DOME-O实现了最先进的性能，mIoU为27.10%，IoU为36.36%。作者观察到与现有方法相比，在短期（1秒）和长期（3秒）预测方面都有显著改进，表明作者的模型有效地捕获了场景随时间的基本演变。DOME-F可以被认为是一种端到端的基于视觉的4D占用预测方法，因为它仅使用周围的相机捕获作为输入。尽管任务具有挑战性，作者的方法仍然实现了有竞争力的性能，进一步证明了DOME具有很强的泛化能力。

作者还展示了模型的长期生成能力，如图6所示，以及在给定相同起始帧的情况下，通过轨迹条件进行操作的能力，如图7所示。此外，作者还在表4中将其方法的生成能力与现有的占用世界模型进行了比较，作者的方法能够生成的持续时间是OccWorld的两倍，是OccSora的两倍。

消融研究

不同的轨迹条件：作者测试了轨迹条件的不同设置，结果如表3所示。Traj.表示是否使用姿态条件进行预测，Res.表示是否使用作者的轨迹重采样增强，Yaw表示是否添加偏航角嵌入。即使不使用任何姿态条件，作者发现其模型优于OccWorld。轨迹信息通过为模型提供场景变化的明确方向而不是要求它从多种可能性中推断出来，显著改善了预测。偏航角嵌入在IoU方面提供了轻微的改进。

上下文帧的数量：作者发现在预测过程中提供更多的上下文帧可以带来更好的预测（见表5），因为额外的帧为模型提供了关于其他车辆和场景的运动和变化的更明确信息。然而，作者也观察到增加帧的数量不如使用轨迹信息高效，因为模型必须导航模糊的帧历史来预测未来的运动。对于基于智能体确定的运动进行预测的世界模型来说，这种歧义是不必要的。

结论和展望

作者提出了一个基于扩散的世界模型DOME，它根据历史数据预测未来的占用帧。它整合了带有轨迹编码器和重采样技术的Occ-VAE，以增强可控性。DOME展示了高保真度生成，有效地预测了占用空间中未来场景的变化，并且可以生成比以前方法长两倍的占用序列。这种方法在自动驾驶的端到端规划中具有应用前景。不过作者发现训练作者的模型仍然需要大量的计算资源。在未来，作者将探索更轻量级和计算效率高的方法，或者采用微调范式以减少资源需求。