MegaSynth：用70万合成数据突破3D场景重建瓶颈，PSNR提升1.8dB！-51CTO.COM

MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法，生成 70 万个合成场景数据集，训练大型重建模型（LRMs），相比使用真实数据训练的模型，PSNR 提升 1.2~1.8 dB，显著增强 3D 场景重建的广覆盖能力。

当前 3D 场景重建方法受限于：

MegaSynth 通过合成数据突破数据瓶颈，使 3D 场景重建更高效、精准，并能泛化至真实数据。

大规模非语义数据生成：提出 MegaSynth 数据集，通过程序化生成 70 万个场景，无需建模语义信息（如物体属性和布局），避免语义复杂性带来的计算开销。

合成数据+真实数据混合训练：通过 MegaSynth 预训练 + 真实数据微调，提高模型泛化能力，实现 1.2~1.8 dB PSNR 提升。

新型 LRM 训练策略：基于 GS-LRM 和 Long-LRM 两种模型，利用合成数据进行高效重建，使模型性能与仅用真实数据训练的模型相当。

MegaSynth 通过以下步骤完成 3D 场景重建：

1)合成数据生成：

• 场景布局：生成 3D 立方体空间，随机分布几何体（如立方体、球体、圆柱等）。

• 几何和纹理生成：随机组合几何形状并添加高度场扰动。

• 光照建模：使用环境光、太阳光和发光物体生成多样化光照条件。

2)数据训练策略：

• 训练 GS-LRM 和 Long-LRM，分别基于 Transformer 和 Mamba 架构。

• 混合训练：先用 MegaSynth 预训练，再用 DL3DV 真实数据微调，以增强泛化能力。

3) 损失优化：

• 渲染损失（Limg）：基于 MSE 误差和感知损失优化 3D 纹理。

• 几何损失（Lloc）：基于合成数据提供的精准几何信息，优化 3D 高斯中心位置，提高几何精度。

• 数据集：

a.训练：MegaSynth（70 万场景）+ DL3DV（7K 场景）

b.测试：DL3DV、Hypersim（高真实感渲染）、MipNeRF360、Tanks & Temples（真实世界数据）

• 关键实验结论：

a.训练包含 MegaSynth 数据的模型在 所有测试数据集 上均优于仅用真实数据训练的模型，特别是在 Hypersim 和 MipNeRF360 这样的跨域数据集上提升更明显。

b.LRMs 仅用 MegaSynth 训练，性能接近于仅用真实数据训练的模型，表明 3D 场景重建的本质是低层几何建模，对语义信息的依赖较小。

MegaSynth 及其训练方法在多个领域有潜在应用：

• 自动驾驶：提升激光雷达与视觉融合的 3D 场景建模精度。

• 机器人导航：增强环境感知，提高路径规划可靠性。

• 增强现实（AR）与虚拟现实（VR）：支持高质量 3D 资产生成和交互式虚拟场景建模。

• 城市建模与测绘：基于大规模图像数据进行高精度 3D 重建，提高城市规划与测绘效率。

1)合成数据的泛化性：MegaSynth 在多种数据集上表现良好，但在 超大规模室外场景 或 极端环境光照 下，是否仍能维持高性能？

2)与其他生成式方法的结合：是否可以结合扩散模型或神经辐射场（NeRF），进一步优化数据生成质量？

3) 数据合成策略优化：当前 MegaSynth 采用 非语义建模，如果引入一定的高层语义控制（如物体语义标签），是否能进一步提升泛化能力？