ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界

人工智能 新闻
上海人工智能实验室、卡耐基梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出DynamicCity。

过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。

尽管这些方法在生成复杂且稀疏的三维环境方面表现出色,现有技术仍面临一个核心挑战:在生成大型 3D 场景时,它们将环境视为静止的 “快照”—— 道路凝固、行人悬停、车辆静止不动。这种静态生成方式缺乏真实世界瞬息万变的交通流,难以反映复杂多变的交通场景,限制了实际应用。

那么,如何让生成的 3D 场景突破静态单帧的限制,真正捕捉动态世界的时空演化规律?

对此,上海人工智能实验室、卡耐基梅隆大学、新加坡国立大学和新加坡南洋理工大学团队提出DynamicCity,给出了突破性的解答。这项创新性工作以4D 到 2D 的特征降维为核心突破点,首次实现了高质量、高效的 4D 场景建模,并在生成质量、训练速度和内存消耗三大关键维度上取得跨越式进展。

DynamicCity已被 ICLR 2025 接收为Spotlight论文,项目主页和代码均已公开。

  • 论文:https://arxiv.org/abs/2410.18084
  • 主页:https://dynamic-city.github.io
  • 代码:https://github.com/3DTopia/DynamicCity

引言

3D 大型场景生成技术旨在利用深度学习模型,如扩散模型,构建高保真、可扩展的场景。该技术有望为智能系统的训练与验证提供近乎无限的虚拟试验场。然而,现有方法大多还在探索静态场景的单帧生成(如 XCube [1]、PDD [2]、SemCity [3] 等),难以捕捉真实驾驶环境中交通流、行人运动等动态要素的时空演化规律。这种静态与动态的割裂,严重制约了生成场景在复杂任务中的应用价值。

主流的静态场景生成方法 [1, 2, 3] 主要依赖体素超分或 TriPlane 压缩,以实现大规模静态场景的高效生成,其本质仍是对单帧 3D 场景的 “快照式” 建模。尽管近期研究尝试将生成范围扩展至动态(如 OccSora [4], DOME [5]),4D 场景的复杂性 —— 包含数十个移动物体、百米级空间跨度及时序关联 —— 仍导致生成质量与效率的严重失衡。例如 OccSora 无法在大压缩率的情况保证较好的重建效果,以及扩散模型生成的结果也较为粗糙。

针对这一难题,上海人工智能实验室等提出DynamicCity—— 面向 4D 场景的生成框架。核心思想是,通过在潜空间显式建模场景的空间布局与动态变化,并借助扩散模型,直接生成高质量的动态场景。具体而言,DynamicCity 采用以下两步方法:1) 通过变分自编码器(Variational Autoencoder, VAE)将复杂的 4D 场景压缩为紧凑的 2D HexPlane [5][6] 特征表示,避免高维潜空间过于复杂导致生成模型难以学习;2) 采用 Padded Rollout Operation (PRO) 使潜空间捕捉到更多时空结构,帮助扩散模型(Diffusion Transformer, DiT [7])更好生成场景的空间结构与动态演化。

DynamicCity 的主要贡献如下:

1. 时空特征压缩:提出基于 Transformer 的投影模块(Projection Module),将 4D 点云序列压缩为六个 2D 特征平面(HexPlane),相较于传统平均池化方法,mIoU 提升 12.56%。结合 Expansion and Squeeze Strategy (ESS),在提升 7.05% 重建精度的同时,将内存消耗降低 70.84%。

2. 特征重组:提出 Padded Rollout 操作,将 HexPlane 特征重组为适配 DiT 框架的特征图,最大程度保留 HexPlane 结构化信息,帮助生成 DiT 更好的学习潜空间。

3. 可控生成:支持轨迹引导生成、指令驱动生成、4D 场景修改、布局条件生成等功能,并可轻松扩展至更多应用,实现更可控的生成。

DynamicCity:基于 HexPlane 的动态场景扩散模型

DynamicCity 采用HexPlane 表征DiT构建了一个高效的4D 场景生成框架 。核心思想通过特征降维的方式,将 4D 场景映射到紧凑的 2D HexPlane,并在此基础上训练 DiT 进行场景生成。如图所示,DynamicCity 主要由以下两个核心模块构成:

1. 基于 HexPlane 表征的 VAE:利用投影模块 (HexPlane Projection Module),将 4D 场景压缩到六个互相正交的2D 特征平面,并通过  Expansion & Squeeze Strategy (ESS) 进行解码,以高效恢复原始时空信息。

2. 在重组 HexPlane 上训练的扩散模型:基于Padded Rollout Operation (PRO),对 HexPlane 进行结构化展开,并在此潜空间训练DiT进行采样,以生成新的 4D 动态场景。

DynamicCity 通过这两个核心模块,解决了现有 4D 生成模型重建效果和生成结果差的问题,提供了更紧凑的表征、更高效的训练、更高质量的动态场景合成。

基于 HexPlane 表征的 VAE

DynamicCity 使用 VAE 将 4D 点云转换为紧凑的 HexPlane 表征。一个 4D 场景被表示为时空体素数据,其中分别表示时间、空间维度,而代表特征通道数。VAE 将 4D 数据进行降维成 HexPlane:

其中,下标表示每个平面保留的维度。负责建模空间维度信息负责建模时空关联。这一映射成功将 4D 表达压缩至 2D 空间,使得后续的生成任务更高效。

投影模块(Projection Module)

为了高效获取 HexPlane,作者设计了投影模块 (Projection Module),用于将高维特征映射至 HexPlane。在通过共享 3D 卷积特征提取器提取初步的时空 4D 特征后,作者使用多个投影网络 ,将 4D 特征投影到 2D 平面,每一个投影网络会压缩一个或两个维度。

投影模块由 7 个小型的投影网络组成,其中 首先进行时间维度压缩,而后三个小型网络分别提取空间特征平面。而时空特征平面 则是通过三个小型网络直接从 4D 特征中提取得到。

Expansion & Squeeze Strategy (ESS) 解码

在动态 NeRF 等领域中,HexPlane 常用一个多层感知机(MLP)进行逐点解码。然而在 4D 场景中,点的数量非常多,导致模型速度慢,显存占用大。DynamicCity 提出 ESS 解码策略,用卷积神经网络代 MLP,减少显存占用,加速训练,同时显著提升重建效果。

首先,对每个 2D 特征平面进行扩展和重复,使其匹配 4D 体素特征;然后,利用 Hadamard 乘积进行信息融合:

最终,通过卷积解码器生成完整 4D 语义场景。

在重组 HexPlane 上训练的扩散模型

在 VAE 编码器学习到 4D 场景的 HexPlane 表征之后,DynamicCity 使用 DiT在学习 HexPlane 空间的分布,并生成时空一致的动态场景

HexPlane 的六个特征平面共享部分空间维度或时间维度。作者希望能够用一种简单有效的方式,在训练扩散模型时,六个平面并非互相独立,而是共享部分时空信息。Padded Rollout Operation (PRO)将六个特征平面排列成单个统一的 2D 矩阵,并在未对齐的区域填充零值,以最大程度地保留 HexPlane 的结构化信息 。

具体而言,PRO 将六个 2D 特征平面转换为一个方形特征矩阵,通过将空间维度和时间维度尽可能的对齐,PRO 能够最小化填充区域的大小,并确保空间与时间维度之间的信息一致性。

随后,Patch Embedding将该 2D 特征矩阵划分为小块,并将其转换为 token 序列。在训练过程中,作者为所有 token 添加位置嵌入,并将填充区域对应的 token排除在扩散过程之外,从而保证生成过程中时空信息的完整性。

可控生成与应用

为了让 HexPlane 生成过程具备可控性,作者引入 Classifier-Free Guidance (CFG)[8]机制,以支持不同条件约束下的场景生成

对于任意输入条件,作者采用AdaLN-Zero技术来调整 DiT 模型内部的归一化参数,从而引导模型生成符合特定约束的场景。此外,对于图像条件 (Image-based Condition),作者额外添加跨模态注意力模块 (Cross-Attention Block),以增强 HexPlane 与外部视觉信息的交互能力。

通过 CFG 和 HexPlane Manipulation,DynamicCity 支持以下的应用,且可以轻松拓展到其他的条件

1. HexPlane 续生成 (Long-term Prediction):通过自回归方式扩展 HexPlane,实现 4D 场景未来预测,长序列 4D 场景生成等任务。

2. 布局控制 (Layout-conditioned Generation):根据鸟瞰 (BEV) 视角语义图,生成符合交通布局的动态场景。

3. 车辆轨迹控制 (Trajectory-conditioned Generation):通过输入目标轨迹,引导场景中车辆的运动。

4. 自车运动控制 (Ego-motion Conditioned Generation):允许用户输入特定指令,引导自车在合成场景中的运动路径。

5. 4D 场景修改 (4D Scene Inpainting):通过掩膜 HexPlane 中的局部区域,并利用 DiT 进行局部补全,实现 4D 动态场景的高质量修复。

结果

下面展示了一些 DynamicCity 的结果,包括无条件生成的结果,布局控制生成结果等。

无条件生成(左:OccSora [4]; 右:DynamicCity)

长序列生成

布局控制生成

车辆轨迹 / 自车运动生成

4D 场景编辑

总结 

DynamicCity 提出了基于 HexPlane 的 4D 场景扩散生成模型,通过 HexPlane 表征、Projection Module、Expansion & Squeeze Strategy、Padded Rollout Operation (PRO),以及Diffusion Transformer 扩散采样,实现了高效、可控且高质量的 4D 场景生成。此外,DynamicCity 还支持多种可控生成方式,并可应用于轨迹预测、布局控制、自车运动控制及场景修改等多个自动驾驶任务。

作者介绍

DynamicCity是上海人工智能实验室、卡耐基梅隆大学、新加坡国立大学和新加坡南洋理工大学团队的合作项目。

本文第一作者卞恒玮,系卡耐基梅隆大学硕士研究生,工作完成于其在上海人工智能实验室实习期间,通讯作者为上海人工智能实验室青年科学家潘亮博士。

其余作者分别为新加坡国立大学计算机系博士生孔令东,新加坡南洋理工大学谢浩哲博士、刘子纬教授,以及上海人工智能实验室乔宇教授。

责任编辑:张燕妮 来源: 机器之心
相关推荐

2018-05-23 16:07:52

智慧城市

2017-04-21 16:32:42

4D3D打印

2016-02-17 13:31:35

智能交通华为

2024-10-28 13:30:00

2023-10-15 12:57:38

数据训练

2023-06-09 13:40:47

2024-12-16 14:40:00

AI模型训练

2024-06-12 09:48:39

2017-02-24 08:56:47

API云计算IaaS

2021-04-01 13:53:26

深度学习大数据人工智能

2023-11-27 09:49:37

自动驾驶数据

2015-03-16 11:54:55

云计算

2024-04-12 10:46:26

2024-01-03 10:05:07

自动驾驶4D雷达

2024-06-21 13:18:25

模型训练

2024-12-19 10:20:53

2024-11-12 09:34:48

2024-10-17 10:28:23

点赞
收藏

51CTO技术栈公众号