本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面&笔者的个人理解
尽管在从运动模糊图像中重建清晰的3D场景方面取得了重大进展,但向现实世界应用的过渡仍然具有挑战性。主要障碍源于严重的模糊,这导致通过“Structure-from-Motion”获取初始相机位姿的不准确,这是以前的方法经常忽略的一个关键方面。为了应对这一挑战,我们提出了DeblurGS,这是一种从运动模糊图像中优化清晰的3D GS的方法,即使在有噪声的相机位姿初始化的情况下也是如此。我们通过利用3D GS的卓越重建能力来恢复细粒度的清晰场景。DeblurGS估计每个模糊观测的6自由度相机运动,并为优化过程合成相应的模糊渲染。此外,我们提出了高斯密集退火策略,以防止在相机运动仍然不精确的早期训练阶段,在错误的位置产生不精确的高斯。综合实验表明,我们的DeblurGS在真实世界和合成基准数据集以及现场捕捉的模糊视频的去模糊和新颖视图合成方面实现了最先进的性能。
总结来说,DeblurGS的主要贡献如下:
- 我们提出了DeblurGS,这是第一个从运动模糊图像中优化清晰3D场景的3D GS管道。
- 我们采用高斯密集退火策略来优化输入模糊图像的噪声初始相机位姿。
- 我们通过对现场拍摄的、快速移动的真实世界视频进行实验,展示了DeblurGS的实用性。
相关工作回顾
图像去模糊图像去模糊是图像恢复领域的基本任务之一。从模糊输入中恢复清晰图像的传统深度学习方法是CNN或基于变换器的监督学习。然而,这些方法需要大量的训练数据与清晰的地面实况图像配对,并且去模糊的质量取决于数据的规模。此外,由于领域差距问题,这些方法往往难以在不同条件下进行泛化,这使得它们在不同的现实世界场景中的性能不一致。相比之下,我们的DeblurGS框架偏离了传统的数据驱动范式,消除了对由大规模数据集训练的预训练网络的需求,并且本质上不受领域差距问题的影响。
NeRF和3D GS:NeRF由于其照片逼真的视图合成结果而在3D视觉领域引起了极大的关注。NeRF的核心策略是利用可微体渲染技术优化神经隐式表示。几种后续方法旨在提高渲染质量,而该研究的其他分支致力于减轻NeRF框架耗时的训练和渲染速度],将渲染速度提高几个数量级。最近,3DGS增强了辐射场模型的变体,并实现了详细的重建性能和实时渲染速度。通过用高效且具有确定性的光栅化取代NeRF的光线行进,3DGS在不损失视觉质量的情况下实现了实时渲染。我们的DeblurGS还建立在3DGS管道上,用于从模糊的观察中恢复潜在清晰场景的细粒度模式,并执行重建场景的实时渲染。
模糊的3D重建:最近,基于NeRF的去模糊方法试图从模糊的多视图图像中重建清晰的3D场景。基于NeRF的方法将每个图像的模糊操作与解释所有模糊输入的清晰3D场景联合优化。DeblurNeRF和DP-NeRF采用2D逐像素模糊核估计器,BADNeRF和ExBluRF直接估计每个输入图像的相机轨迹。尽管有令人印象深刻的新颖视图合成和去模糊性能,但基于NeRF的方法仍面临着从不准确的初始姿态优化场景的挑战,这是一个自然的假设,考虑到如果给出模糊视图,SfM管道会估计错误的相机位姿。我们的DeblurGS通过采用高斯密集退火策略,从错误姿势中恢复清晰的3D场景。
DeblurGS简介
我们介绍了DeblurGS,这是一种从相机运动模糊图像中优化基于清晰高斯飞溅的3D场景的方法。考虑到由于相机运动而模糊的多视图观察,我们的目标是恢复清晰的3D场景。为此,我们采用3DGS作为场景表示,以细粒度细节实现3D场景的真实感恢复,并结合潜在的相机运动对3DGS进行联合优化。我们在第3.1节中简要介绍了3DGS。接下来,我们在第3.2节中介绍了一种模糊视图合成方法,该方法通过估计相机运动并根据近似运动累积子帧渲染。我们在第3.3节中介绍了优化过程,重点介绍了从错误姿态进行优化的高斯密集退火策略。最后,我们在第3.4节中推导了优化的损失项。我们在图2中提供了训练的概述。
Blurry View Synthesis
我们的目标是使用给定的运动模糊输入来优化清晰的高斯飞溅。从物理上讲,相机运动模糊是由相机运动过程中的辐照度积分产生的,如手抖或颤抖。因此,模糊图像的获取由曝光时间内时变6自由度相机位姿的辐照度的积分表示。
我们估计了解释运动模糊的6自由度相机轨迹,以准确模拟方程(4)中描述的模糊操作。根据ExBluRF,我们用李代数空间se(3)中的Bézier曲线对相机的刚性运动进行参数化。然而,我们发现,即使我们使用Bézier曲线准确估计相机轨迹,由于相机姿态沿轨迹的采样位置不同,模糊图像也不是唯一合成的,如图3所示。因此,我们定义了子帧对齐参数,该参数校准估计轨迹上的每个相机姿势,以与时间t处的潜在相机姿势对齐:
我们使用等式4应用对准参数的定义来公式化运动模糊图像B:
Optimization from Inaccurate Poses
高斯密集退火:由于传统的特征匹配算法是对模糊图像中的噪声特征进行的,因此COLMAP获得的初始姿态是错误的。考虑到不准确的初始姿态,相机运动的联合估计会导致在优化的早期阶段在不正确的位置产生高斯。具体而言,如果相对于高斯位置的梯度超过致密化阈值θ,则高斯被一分为二。因此,处于错误位置的高斯试图拟合来自错误位置的训练图像,从而破坏了优化过程。为了防止在不正确的位置产生过早的高斯分裂,我们采用了致密化阈值θ的退火策略。我们从较高的初始θ逐渐退火θ,当相机运动充分优化时,可以实现更精细的致密化。θ的退火策略在场景试图通过致密化来表示精细细节之前,优先考虑相机运动的精确优化,从而减轻高斯在错误位置造成的干扰。
Loss Functions
重建损失:
Temporal Smoothness Loss:
整体损失
实验
结论
本文提出了DeblurGS,一种从运动模糊图像集合中重建清晰3D场景的方法。我们模拟相机运动以合成模糊视图,并通过最小化给定模糊观察和生成的模糊之间的距离来优化3D高斯散射。通过我们的高斯密集退火策略,相机运动收敛于潜在的相机运动,甚至从嘈杂的相机姿势初始化,这是模糊观测的SfM的自然结果。从不精确的姿势进行优化的能力突出了我们框架的实用性,展示了用智能手机拍摄的视频的成功去模糊。DeblurGS在清晰的3D场景重建任务中优于所有现有方法,在实验和实际环境中都达到了最先进的水平。