无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

Crystalcxt

发布于 2024-6-3 09:42

浏览

0收藏

无需采集3D数据，也能训练出高质量的3D自动驾驶场景生成模型。

这是来自香港中文大学、香港科技大学和华为诺亚方舟实验室的最新研究成果——针对自动驾驶街景的可控3D场景生成方法“MagicDrive3D”。

此前，采用常见的2D自动驾驶数据集来生成3D街景的方法不是没有，但受采集角度所限，生成结果的可控性和几何一致性无法同时满足。而现在，MagicDrive3D通过结合可控生成与场景重建解决了这一限制。

不仅支持多条件控制，还突破了原始数据的局限，即使在原始图像不一致的情况下，也能建立出连贯的高质量模型。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

即使场景中有很多物体，生成结果依然真实可靠：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

而且支持天气情况的文本控制，可以一键从晴天切换到雨天：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

道路结构、物体位置都能够精确控制（随机保留50%车）：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

还可以一键实现白天与夜晚的转换（随机保留25%车）：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

总之，这项成果解决了自动驾驶等无边界场景下3D场景的高质量模型开发难题，可以有效帮助BEV分割等下游感知任务。

常规驾驶数据即可实现可控场景生成

3D自动驾驶场景生成应用广阔，然而目前3D资产的生成方法通常局限于以物体为中心的生成场景，对于自动驾驶中无界限的大场景生成缺乏探索。

但从应用的角度来说，可控的生成方法在下游应用中价值更高，针对这个痛点，MagicDrive3D提出了一种新颖的框架，在常规的自动驾驶数据集上即可训练出3D场景生成模型，而且支持多种条件控制！

MagicDrive3D继承了前一代MagicDrive诸多优点，其多条件控制可以实现场景、背景和前景的多层次街景图像编辑，用来生成更多的自动驾驶3D场景。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

△MagicDrive3D 的多视角渲染能力

而且生成的场景支持多相机视角的渲染，例如全景图渲染：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

在目前应用最广泛的nuScenes数据集上，MagicDrive3D在视频生成和场景生成两方面相比于baseline，均表现出明显优势。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

△MagicDrive3D的生成效果评估

此外，MagicDrive3D生成的图片还可以直接用于数据增强，可以在BEV分割任务中提升相机参数的鲁棒性。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

△MagicDrive3D的生成数据在下游任务的效果

那么，MagicDrive3D究竟是如何做到的呢？

先合成，再重建

随着扩散模型的发展，图片、视频生成的方法层出不穷，但是受限制于现有的数据采集形式，这些方法只能生成固定的相机视角，对场景几何缺乏建模（geometry-free），因而无法拓展到更多视角。

能够支持多视角的重建方法，虽然能够提供几何一致性的保证（geometry-focused），却又受到了真实采集的数据（静态、多视角数据）的限制，常见的自动驾驶数据集根本无法满足这些要求。

为了填补这部分空白，MagicDrive3D提出了一个将视角合成方法与场景重建方法相结合的框架。

该框架充分利用前者的可控性以及后者的几何一致性，实现了接受多种控制条件的3D街景场景合成。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型-AI.x社区

△MagicDrive3D的方法框架

具体来说，MagicDrive3D首先训练了一个细粒度可控的视频生成模型，不仅能够通过语义信息控制，视频中每个视角的相机参数都经过统一坐标系编码，使得生成的多视角视频具备更强的几何一致性。

接着，为了提供更强的几何一致性保证以及多视角渲染，MagicDrive3D提出可形变的高斯泼溅作为场景的3D表征，结合单目深度点云进行重建。

最终得到的驾驶场景能够合理的反应各种控制条件，并且支持任意相机视角的精确渲染。

总的来说，MagicDrive3D带来了一个全新的、高效的可控3D场景生成框架，不仅成功解决了无界限的3D场景生成难题，其可控性更为多种下游任务提供了支持。

相比前序工作MagicDrive，MagicDrive3D不仅提供了多视角渲染能力，生成的场景几何信息也为更多样的场景编辑提供可能。

随着质量和真实性的提升，生成数据将得到更广泛的应用，为自动驾驶技术的发展注入更多活力。

论文地址：https://arxiv.org/abs/2405.14475
项目主页：https://gaoruiyuan.com/magicdrive3d/

本文转自量子位，作者：量子位

原文链接:https://mp.weixin.qq.com/s/DdUfHmGvkyXz2iq84Jc2Zg

标签

自动驾驶

相关推荐

谷歌推出通用AI代理：能自动执行600多种动作，游玩复杂3D游戏

Aceryt • 1678浏览 • 0回复
文本直接生成多视角3D图像，Meta推出创新模型

Aceryt • 1117浏览 • 0回复
实时可编辑3D重建！鼠标拖拽就能控制，港大VAST浙大联合出品

Crystalcxt • 1005浏览 • 0回复
5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

Crystalcxt • 1325浏览 • 0回复
浙大、蚂蚁集团推出MaPa：文本生成超真实3D模型

Aceryt • 1492浏览 • 0回复
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

angel • 1510浏览 • 0回复
仅需1分钟，文本生成高质量3D模型—Meta 3D-Gen

Aceryt • 1642浏览 • 0回复
3D版"裁缝"开源来袭！Tailor3D:自定义3D编辑和资产生成（港大&上海AI-Lab&港中文）

angel • 1216浏览 • 0回复
北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

angel • 1144浏览 • 0回复
ECCV`24 | 首次解决文本到3D NeRFs分解问题！港中文等提出DreamDissector

angel • 1014浏览 • 0回复
港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

angel • 825浏览 • 0回复
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D场景、任意提示！

angel • 885浏览 • 0回复
精准可控新视角视频生成+场景级3D生成！北大&港中文&腾讯等开源ViewCrafter

angel • 1162浏览 • 0回复
ECCV`24 | 新加坡国立&华为提出Vista3D: 实现快速且多视角一致的3D生成

angel • 701浏览 • 0回复
3D生成基础模型来了！只需5秒，高质量3D资产规模化生成！南洋理工等重磅开源3DTopia-XL

angel • 976浏览 • 0回复
港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

angel • 618浏览 • 0回复
生成任意3D和4D场景！GenXD：通用3D-4D联合生成框架 | 新加坡国立&微软

angel • 728浏览 • 0回复
实现任意3D/4D场景生成！港科大&清华&生数发布DimensionX

angel • 1934浏览 • 0回复
革新3D材质生成！Material Anything：端到端打造任意3D物体的高质量材质！

angel • 983浏览 • 0回复

Crystalcxt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

常规驾驶数据即可实现可控场景生成

△MagicDrive3D 的多视角渲染能力

△MagicDrive3D的生成效果评估

△MagicDrive3D的生成数据在下游任务的效果

先合成，再重建

△MagicDrive3D的方法框架

目录