高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX

发布于 2024-9-3 10:27
浏览
0收藏

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

文章链接:https://arxiv.org/pdf/2408.16767
git链接:https://liuff19.github.io/ReconX

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

亮点直击

  • ReconX,一种新颖的稀疏视角3D场景重建框架,该框架将模糊的重建挑战重新定义为时间生成任务。
  • 将3D结构指导融入视频扩散模型的条件空间中,以生成3D一致的帧,并提出了一种基于置信度的3D优化方案(3DGS),以便在生成的视频基础上重建场景。
  • 大量实验表明,ReconX在各种真实世界数据集上在高保真度和通用性方面优于现有方法。


3D场景重建的进展使得我们能够将来自现实世界的2D图像转换为3D模型,通过数百张输入照片生成逼真的3D结果。尽管在密集视角重建场景中取得了巨大成功,但从不足的捕捉视角中渲染详细场景仍然是一个难以解决的优化问题,常常导致未见区域出现伪影和失真。

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

本文提出了ReconX,一种新颖的3D场景重建范式,该范式将模糊的重建挑战重新定义为时间生成任务。关键的洞察在于释放大型预训练视频扩散模型在稀疏视角重建中的强生成先验。然而,直接从预训练模型生成的视频帧难以准确保持3D视角一致性。为了解决这个问题,ReconX首先根据有限的输入视角构建全局点云,并将其编码到上下文空间中作为3D结构条件。以此条件为指导,视频扩散模型生成的帧不仅能保留细节,而且展示高程度的3D一致性,从而确保从不同视角观看场景的一致性。最后,通过一种基于置信度的3D Gaussian Splatting优化方案从生成的视频中恢复3D场景。在各种真实世界数据集上的大量实验表明,ReconX在质量和通用性方面优于现有的最先进方法。

研究ReconX的动机

本文关注的是从非常稀疏的视角(例如,仅两个视角)图像中进行3D场景重建和新视角合成(NVS)的基本问题。大多数现有的研究(利用3D先验和几何约束(如深度、法线、代价体积)来填补稀疏视角3D重建中观测到的区域与新区域之间的差距。尽管这些方法能够从给定的视角生成高度逼真的图像,但由于视角不足以及由此产生的重建过程不稳定性,它们往往难以在输入视角不可见的区域生成高质量图像。为了解决这个问题,一个自然的想法是增加更多观测,从而将欠定的3D创建问题转化为一个完全约束的3D重建问题。

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

为此,通过将3D原生结构指导融入扩散过程中,将固有模糊的重建问题重新定义为生成问题。

方法

ReconX 概述

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

构建3D结构指导

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

生成3D一致的视频帧

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

基于置信度的3D Gaussian Splatting优化

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

实验

研究者们进行了广泛的实验来评估稀疏视角重建框架 ReconX。

实验设置

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

数据集

ReconX 的视频扩散模型在三个数据集上进行训练:RealEstate-10K、ACID和 DL3DV-10K。RealEstate-10K 是一个从 YouTube 下载的数据集,分为 67,477 个训练场景和 7,289 个测试场景。ACID 数据集包含自然风景场景,包含 11,075 个训练场景和 1,972 个测试场景。DL3DV-10K 是一个大规模的户外数据集,包含 10,510 个视频,具有一致的拍摄标准。对于每个场景视频,我们随机抽取 32 帧连续的帧,并将第一帧和最后一帧作为我们视频扩散模型的输入。为了进一步验证跨数据集的泛化能力,我们还直接在两个流行的多视角数据集上评估我们的方法:DTU数据集和 NeRF-LLFF数据集,这两个数据集在 NVS 任务中非常流行。

基准和指标

研究者们将 ReconX 与原始 3DGS以及几种代表性的稀疏视角 3D 重建基准方法进行比较,包括:基于 NeRF 的 pixelNeRF和 MuRF;基于光场的 GPNR和 AttnRend;以及最近的最先进的 3DGS 基于 pixel-Splat和 MVSplat。对于定量结果,报告 NVS 中的标准指标,包括 PSNR、SSIM、LPIPS。为了公平比较,在 256 × 256 分辨率下进行实验,以符合现有方法的标准。

与基准方法的比较

小角度变化下的比较。 为了公平地与基准方法如 MuNeRF、pixelSplat和 MVSplat进行比较,首先在小角度变化的稀疏视角下比较了 ReconX 与这些基准方法(见下表1和图3)。我们观察到,ReconX 在所有视觉质量和定性感知指标上超越了所有先前的最先进模型。

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

大角度变化下的比较。 由于 MVSplat 和 pixelSplat 相较于以前的基准方法有显著提升,我们在更困难的设置下(即,给定具有大角度变化的稀疏视角)进行了深入比较。我们提出的 ReconX 在这些更具挑战性的设置下表现出比基准方法更显著的改进,特别是在未见过的和广义视角下(见下表2和图4)。这清楚地表明,ReconX 在利用视频扩散生成更一致的观察结果方面的有效性,从而缓解了固有的稀疏视角重建问题。

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

跨数据集泛化

通过 3D 结构指导释放视频扩散模型的强大生成能力,我们的 ReconX 在泛化到分布外的新场景方面具有本质上的优势。为了展示我们的强泛化能力,我们进行了两项跨数据集评估。为公平比较,仅在 RealEstate-10K 上训练模型,并直接在两个流行的 NVS 数据集(即 NeRF-LLFF和 DTU)上进行测试。如下表 3 和图 5 所示,竞争基准方法 MVSplat和 pixelSplat无法渲染这些包含不同相机分布和图像外观的 OOD 数据集,导致性能显著下降。相比之下,我们的 ReconX 展现了令人印象深刻的泛化能力,当训练数据和测试数据之间的领域差距增大时,性能提升更为显著。

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX-AI.x社区

视图数量评估

ReconX 对输入视图数量是无关的。具体来说,给定 N 个视图作为输入,我们采样一个合理的相机轨迹来使用我们的 video diffusion 模型渲染图像对,并最终从所有生成的帧中优化 3D 场景。为了公平比较,我们在 DTU 上使用三个上下文视图进行测试,验证这一点。ReconX的结果是:PSNR: 22.83,SSIM: 0.512,LPIPS: 0.317;MVSplat 的结果是:PSNR: 14.30,SSIM: 0.508,LPIPS: 0.371;pixelSplat 的结果是:PSNR: 12.52,SSIM: 0.367,LPIPS: 0.585。与双视图结果(上表 3)相比,当给定更多输入视图时,ReconX 和 MVSplat 均能取得更好的性能,但ReconX远优于 MVSplat。然而,pixelSplat 在使用更多视图时表现更差,这一点也在 Chen et al.(2024a)的研究中得到了体现。更多关于我们结果的可视化可以在我们的项目页面找到。

消融研究与分析

在 RealEstate-10K 上进行了一系列消融研究,以分析 ReconX 框架的设计,如表 4 和图 6 所示。将预训练视频扩散模型与 Gaussian Splatting 进行的简单组合被视为“基线”。具体来说,在以下方面对ReconX进行了消融实验:3D 结构指导、基于置信度的优化和 LPIPS 损失。结果表明,省略这些元素中的任何一个都会导致质量和一致性上的下降。特别是,原始视频扩散模型与 3DGS 的基本组合导致场景显著扭曲。缺乏 3D 结构指导会导致生成的帧在远处输入视图中不一致,从而出现模糊和伪影问题。缺少基于置信度的优化会导致某些局部细节区域的结果不佳。将 LPIPS 损失加入到基于置信度的 3DGS 优化中,可以提供更清晰的渲染视图。这说明了我们整体框架的有效性(见前面图 2),它在仅给定稀疏视图作为输入的情况下,驱动了可泛化和高保真度的 3D 重建。

结论

本文介绍了 ReconX,一种新颖的稀疏视角三维重建框架,该框架将复杂且模糊的重建问题重新定义为生成任务。方法核心在于利用视频扩散模型强大的生成能力,以生成更为可信的观测帧,用于稀疏视角的三维重建。通过将三维结构指导融入视频扩散过程中,提升了三维一致性视频帧的生成质量。此外,提出的三维置信度感知方案有效地解决了生成帧的不确定性问题,从而改进了最终的三维场景重建。

广泛实验表明,ReconX 在高质量和泛化能力方面超越了现有的最先进方法,尤其是在未见数据上表现突出。

限制与未来工作

尽管 ReconX 在重建效果上表现出色,但仍存在一些限制。目前的重建质量在一定程度上受到所使用的扩散模型的限制,特别是基于 U-Net 的 DynamiCrafter。未来可以通过整合更大规模的开源视频扩散模型(如基于 DiT 框架的模型)来提升性能。

此外,未来工作可以探讨将三维结构指导优化直接集成到视频生成模型中,从而实现更高效的端到端三维场景重建过程。另一个值得关注的方向是探索一致的四维场景重建,这将进一步推进三维场景建模的能力。

总体而言,ReconX 为从视频扩散模型中创建复杂三维环境提供了一种有前景的方法,并有望激发该领域更多的研究。


本文转自 AI生成未来 ,作者:Fangfu Liu等


原文链接:​​https://mp.weixin.qq.com/s/hpXCmVgtLscrJltQ__zMaA​

收藏
回复
举报
回复
相关推荐