本文经3D视觉之心公众号授权转载,转载请联系出处。
单目深度估计的瓶颈
单目深度估计(Monocular Depth Estimation, MDE)因其简单、低成本和易于部署的特点,受到了广泛关注。与传统的深度传感技术(如LiDAR或立体视觉)不同,MDE仅需要一张RGB图像作为输入,因此在自动驾驶、虚拟现实和图像合成等多个应用领域中具有很高的吸引力。然而,这也带来了一个显著的挑战:如何在广泛的应用场景中实现卓越的泛化能力,以有效应对场景布局、深度分布、光照条件等因素的多样性和复杂性。这项任务并非易事,因为不同的场景和条件往往带来非常大的变化。
近年来,零-shot单目深度估计主要发展为两大类方法:基于数据的方法和基于模型的方法。基于数据的方法:依赖于大量的图像-深度对,通过训练得到图像与深度之间的映射。然而,这一过程非常耗时且需要巨大的计算资源。与之相对,基于模型的方法则通过利用预训练的骨干网络,尤其是在稳定扩散模型(Stable Diffusion)上下文中,展现了较为高效的性能。例如,Marigold通过将深度估计重构为扩散去噪过程,在泛化和细节保留方面取得了令人印象深刻的成果。然而,迭代去噪过程导致了较低的推理速度。
尽管扩散模型在单目深度估计中的应用取得了显著的进展,但很少有研究深入探讨如何最有效地将生成特征适应于判别性任务。因此,本文将重点分析扩散模型中的特征表示,特别是在如何优化去噪网络的特征表示能力上。通常,扩散模型由图像到潜在空间的编码解码器和去噪网络组成。前者将图像压缩到潜在空间并重建,而后者则负责对场景进行感知与推理。通过实验发现,主要的瓶颈在于去噪网络的特征表示能力。事实上,用于预训练去噪网络的重建任务使得模型过于关注纹理细节,导致深度预测中的纹理不真实。因此,如何增强去噪网络的特征表示能力并减少对无关细节的依赖,是将扩散模型应用于深度估计任务的关键问题。
DepthMaster【1】是一个定制的单步扩散模型,旨在提升深度估计模型的泛化能力和细节保留能力。
- 首先,我们引入了特征对齐模块(Feature Alignment),通过高质量的外部视觉表示来提升去噪网络的特征表示能力,并减少对纹理细节的过拟合。
- 其次,为了解决单步框架中缺乏细粒度细节的问题,我们提出了傅里叶增强模块(Fourier Enhancement),在频域内自适应平衡低频结构特征和高频细节特征,从而有效模拟扩散模型中多步去噪过程的学习。
通过这些优化,我们的方法在多种数据集上超越了其他基于扩散的深度估计方法,取得了最新的性能。
主要贡献:
- 提出了DepthMaster,一种定制生成特征的创新方法,旨在将扩散模型适应于判别性深度估计任务。
- 引入了特征对齐模块,以高质量的外部特征缓解对纹理细节的过拟合,并提出了傅里叶增强模块,以在频域内细化细粒度细节。
- 方法展现了最新的零样本性能和卓越的细节保留能力,超越了其他基于扩散的算法,并在多个数据集上表现出色。
项目链接:https://indu1ge.github.io/DepthMaster_page/
具体方法
确定性范式
特征对齐模块
稳定扩散v2由两个主要组件组成:I2L编码器-解码器和去噪U-Net。I2L编码器-解码器负责特征压缩,旨在减少推理时间和训练成本。通过图像重建训练,它主要捕捉低层特征。与此不同,U-Net负责从噪声图像中恢复图像,从而使其具备场景感知与推理能力。然而,由于U-Net是通过重建任务进行训练的,它往往过度强调细节纹理,从而导致深度预测中的伪纹理问题(如图1所示)。因此,我们引入语义正则化来增强U-Net的场景表示能力,并防止过度拟合低级的颜色信息。
傅里叶增强模块
单步范式通过避免多步迭代过程和多次运行集成,有效地加速了推理过程。然而,扩散模型输出的细粒度特征通常来自于迭代细化过程。因此,单步模型在处理时会出现模糊的预测(如图1所示)。为了缓解这一问题,我们提出了傅里叶增强模块,在频域中进行操作,以增强高频细节,从而有效模拟多步去噪过程中的学习。
加权多方向梯度损失
两阶段训练策略
由于I2L编码器-解码器的深度重建精度已经足够高,我们将重点微调U-Net。实验表明,潜在空间的监督有助于模型更好地捕捉全局场景结构,而像素级的监督则有助于捕捉细粒度的细节,但也会引入全局结构的失真。基于这些观察,我们提出了一个两阶段的训练策略。
实验效果
总结一下
DepthMaster是用于定制扩散模型以适应深度估计任务。通过引入特征对齐模块,有效地缓解了对纹理细节的过拟合问题。此外,通过傅里叶增强模块在频域中操作,显著增强了细粒度细节的保留能力。得益于这些精心设计,DepthMaster在零样本性能和推理效率方面实现了显著提升。广泛的实验验证了我们方法的有效性,在泛化能力和细节保留方面达到了最新的水平,超越了其他基于扩散模型的方法,并在各种数据集上表现优异。