MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!

人工智能
MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。

1. 一眼概览

MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。

2. 核心问题

当前 3D 场景重建方法受限于:

  • 数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。
  • 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
  • 计算成本高昂:现有优化方法(如 3DGS)计算成本高,推理速度慢,难以应用于大规模场景。

MegaSynth 通过合成数据突破数据瓶颈,使 3D 场景重建更高效、精准,并能泛化至真实数据。

3. 技术亮点

大规模非语义数据生成:提出 MegaSynth 数据集,通过程序化生成 70 万个场景,无需建模语义信息(如物体属性和布局),避免语义复杂性带来的计算开销。

合成数据+真实数据混合训练:通过 MegaSynth 预训练 + 真实数据微调,提高模型泛化能力,实现 1.2~1.8 dB PSNR 提升

新型 LRM 训练策略:基于 GS-LRM 和 Long-LRM 两种模型,利用合成数据进行高效重建,使模型性能与仅用真实数据训练的模型相当。

4. 方法框架图片

MegaSynth 通过以下步骤完成 3D 场景重建:

1)合成数据生成

• 场景布局:生成 3D 立方体空间,随机分布几何体(如立方体、球体、圆柱等)。

• 几何和纹理生成:随机组合几何形状并添加高度场扰动。

• 光照建模:使用环境光、太阳光和发光物体生成多样化光照条件。

2)数据训练策略

    • 训练 GS-LRM 和 Long-LRM,分别基于 Transformer 和 Mamba 架构。

    • 混合训练:先用 MegaSynth 预训练,再用 DL3DV 真实数据微调,以增强泛化能力。

   3) 损失优化

      • 渲染损失(Limg):基于 MSE 误差和感知损失优化 3D 纹理。

      • 几何损失(Lloc):基于合成数据提供的精准几何信息,优化 3D 高斯中心位置,提高几何精度。

5. 实验结果速览

• 数据集

a.训练:MegaSynth(70 万场景)+ DL3DV(7K 场景)

b.测试:DL3DV、Hypersim(高真实感渲染)、MipNeRF360、Tanks & Temples(真实世界数据)

• 关键实验结论

a.训练包含 MegaSynth 数据的模型在 所有测试数据集 上均优于仅用真实数据训练的模型,特别是在 Hypersim 和 MipNeRF360 这样的跨域数据集上提升更明显。

b.LRMs 仅用 MegaSynth 训练,性能接近于仅用真实数据训练的模型,表明 3D 场景重建的本质是低层几何建模,对语义信息的依赖较小。

6. 实用价值与应用

MegaSynth 及其训练方法在多个领域有潜在应用:

• 自动驾驶:提升激光雷达与视觉融合的 3D 场景建模精度。

• 机器人导航:增强环境感知,提高路径规划可靠性。

• 增强现实(AR)与虚拟现实(VR):支持高质量 3D 资产生成和交互式虚拟场景建模。

• 城市建模与测绘:基于大规模图像数据进行高精度 3D 重建,提高城市规划与测绘效率。

7. 开放问题

1)合成数据的泛化性:MegaSynth 在多种数据集上表现良好,但在 超大规模室外场景 或 极端环境光照 下,是否仍能维持高性能?

2)与其他生成式方法的结合:是否可以结合扩散模型或神经辐射场(NeRF),进一步优化数据生成质量?

3) 数据合成策略优化:当前 MegaSynth 采用 非语义建模,如果引入一定的高层语义控制(如物体语义标签),是否能进一步提升泛化能力?

责任编辑:武晓燕 来源: 萍哥学AI
相关推荐

2022-09-13 15:19:48

3D网络

2024-10-21 13:20:00

视频数据集

2024-06-26 10:07:38

2024-06-11 07:02:00

大模型3D内容生成技术

2024-05-16 09:24:17

3D技术

2025-01-26 10:19:21

2023-08-21 10:57:17

3D模型

2021-06-02 06:24:05

计算机视觉3D无人驾驶

2021-09-16 07:52:18

SwiftUScroll效果

2011-06-27 15:57:21

Qt 3D OpenGL

2025-01-07 13:19:48

模型AI训练

2015-04-27 15:35:42

Cocos3D场景编辑器

2020-07-27 10:23:10

开源技术 数据

2020-11-25 20:03:41

AI 机器人工智能

2017-05-11 08:59:38

玻璃材质3D打印

2020-03-25 13:39:33

AI训练支付宝3D

2023-04-24 16:25:47

3D开发

2018-06-20 09:52:42

MR混合现实医学影像

2024-07-31 15:30:05

2024-12-10 15:17:11

点赞
收藏

51CTO技术栈公众号