InfiniCube：来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法-51CTO.COM

本文经3D视觉之心公众号授权转载，转载请联系出处。

InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models

介绍：https://research.nvidia.com/labs/toronto-ai/infinicube/

论文：https://arxiv.org/abs/2412.03934v1

InfiniCube 是由英伟达主导开发的一种新型3D生成方法，用于生成无界且可控制的动态3D驾驶场景。

InfiniCube 通过结合高清地图、车辆边界框和文本描述，利用最新的3D表示和视频模型技术，实现了大规模动态场景的生成。

这种方法不仅能够生成具有高保真度和一致外观的3D结构，还能够保持几何和外观的一致性，这对于自动驾驶车辆的模拟训练和测试尤为重要。

InfiniCube 的关键特性在于其能够构建一个基于语义体素的3D世界表示，并将其作为视频生成模型的引导。

这一创新使得InfiniCube能够生成大规模、细节丰富且与物理世界保持一致的动态3D驾驶场景。此外，InfiniCube还提出了一种快速的前馈方法，将动态视频和体素世界转换为动态3D高斯场景，同时保留对动态车辆的控制能力。技术解读

InfiniCube 技术的思路是利用先进的3D表示和视频模型，结合高清地图、车辆边界框和文本描述，生成无界且可控制的动态3D驾驶场景。

这项技术通过构建一个基于高清地图条件的稀疏体素3D生成模型来生成大规模的语义体素世界，然后利用视频模型和一系列像素对齐的引导缓冲区来合成一致的外观，最终通过快速前馈方法将视频和体素世界转换为动态3D高斯场景，实现了对动态车辆的精确控制。

InfiniCube 的具体处理过程包括三个主要阶段：

其技术特点主要包括：

InfiniCube 技术为自动驾驶车辆的训练和测试提供了一个高度真实和可控的虚拟环境，这对于模拟复杂交通场景和对抗性场景尤为重要，有望在自动驾驶领域实现更广泛的应用。此外，其在混合现实和机器人技术等领域也具有广泛的应用前景。论文解读

这篇论文介绍了一个名为InfiniCube的系统，它是一个用于生成无界且可控制的动态3D驾驶场景的方法。以下是论文内容要点概括：

InfiniCube：来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法