中科大&vivo最新深度估计DepthMaster：泛化能力、细节保留超越其他基于扩散方法-51CTO.COM

本文经3D视觉之心公众号授权转载，转载请联系出处。

单目深度估计的瓶颈

单目深度估计（Monocular Depth Estimation, MDE）因其简单、低成本和易于部署的特点，受到了广泛关注。与传统的深度传感技术（如LiDAR或立体视觉）不同，MDE仅需要一张RGB图像作为输入，因此在自动驾驶、虚拟现实和图像合成等多个应用领域中具有很高的吸引力。然而，这也带来了一个显著的挑战：如何在广泛的应用场景中实现卓越的泛化能力，以有效应对场景布局、深度分布、光照条件等因素的多样性和复杂性。这项任务并非易事，因为不同的场景和条件往往带来非常大的变化。

近年来，零-shot单目深度估计主要发展为两大类方法：基于数据的方法和基于模型的方法。基于数据的方法：依赖于大量的图像-深度对，通过训练得到图像与深度之间的映射。然而，这一过程非常耗时且需要巨大的计算资源。与之相对，基于模型的方法则通过利用预训练的骨干网络，尤其是在稳定扩散模型（Stable Diffusion）上下文中，展现了较为高效的性能。例如，Marigold通过将深度估计重构为扩散去噪过程，在泛化和细节保留方面取得了令人印象深刻的成果。然而，迭代去噪过程导致了较低的推理速度。

尽管扩散模型在单目深度估计中的应用取得了显著的进展，但很少有研究深入探讨如何最有效地将生成特征适应于判别性任务。因此，本文将重点分析扩散模型中的特征表示，特别是在如何优化去噪网络的特征表示能力上。通常，扩散模型由图像到潜在空间的编码解码器和去噪网络组成。前者将图像压缩到潜在空间并重建，而后者则负责对场景进行感知与推理。通过实验发现，主要的瓶颈在于去噪网络的特征表示能力。事实上，用于预训练去噪网络的重建任务使得模型过于关注纹理细节，导致深度预测中的纹理不真实。因此，如何增强去噪网络的特征表示能力并减少对无关细节的依赖，是将扩散模型应用于深度估计任务的关键问题。

DepthMaster【1】是一个定制的单步扩散模型，旨在提升深度估计模型的泛化能力和细节保留能力。

首先，我们引入了特征对齐模块（Feature Alignment），通过高质量的外部视觉表示来提升去噪网络的特征表示能力，并减少对纹理细节的过拟合。
其次，为了解决单步框架中缺乏细粒度细节的问题，我们提出了傅里叶增强模块（Fourier Enhancement），在频域内自适应平衡低频结构特征和高频细节特征，从而有效模拟扩散模型中多步去噪过程的学习。

通过这些优化，我们的方法在多种数据集上超越了其他基于扩散的深度估计方法，取得了最新的性能。

主要贡献：

提出了DepthMaster，一种定制生成特征的创新方法，旨在将扩散模型适应于判别性深度估计任务。
引入了特征对齐模块，以高质量的外部特征缓解对纹理细节的过拟合，并提出了傅里叶增强模块，以在频域内细化细粒度细节。
方法展现了最新的零样本性能和卓越的细节保留能力，超越了其他基于扩散的算法，并在多个数据集上表现出色。

项目链接：https://indu1ge.github.io/DepthMaster_page/

具体方法

确定性范式

特征对齐模块

稳定扩散v2由两个主要组件组成：I2L编码器-解码器和去噪U-Net。I2L编码器-解码器负责特征压缩，旨在减少推理时间和训练成本。通过图像重建训练，它主要捕捉低层特征。与此不同，U-Net负责从噪声图像中恢复图像，从而使其具备场景感知与推理能力。然而，由于U-Net是通过重建任务进行训练的，它往往过度强调细节纹理，从而导致深度预测中的伪纹理问题（如图1所示）。因此，我们引入语义正则化来增强U-Net的场景表示能力，并防止过度拟合低级的颜色信息。

傅里叶增强模块

单步范式通过避免多步迭代过程和多次运行集成，有效地加速了推理过程。然而，扩散模型输出的细粒度特征通常来自于迭代细化过程。因此，单步模型在处理时会出现模糊的预测（如图1所示）。为了缓解这一问题，我们提出了傅里叶增强模块，在频域中进行操作，以增强高频细节，从而有效模拟多步去噪过程中的学习。

加权多方向梯度损失

两阶段训练策略

由于I2L编码器-解码器的深度重建精度已经足够高，我们将重点微调U-Net。实验表明，潜在空间的监督有助于模型更好地捕捉全局场景结构，而像素级的监督则有助于捕捉细粒度的细节，但也会引入全局结构的失真。基于这些观察，我们提出了一个两阶段的训练策略。

实验效果

总结一下

DepthMaster是用于定制扩散模型以适应深度估计任务。通过引入特征对齐模块，有效地缓解了对纹理细节的过拟合问题。此外，通过傅里叶增强模块在频域中操作，显著增强了细粒度细节的保留能力。得益于这些精心设计，DepthMaster在零样本性能和推理效率方面实现了显著提升。广泛的实验验证了我们方法的有效性，在泛化能力和细节保留方面达到了最新的水平，超越了其他基于扩散模型的方法，并在各种数据集上表现优异。