中科大&vivo最新深度估计DepthMaster:泛化能力、细节保留超越其他基于扩散方法

人工智能 新闻
DepthMaster是用于定制扩散模型以适应深度估计任务。通过引入特征对齐模块,有效地缓解了对纹理细节的过拟合问题。

  本文经3D视觉之心公众号授权转载,转载请联系出处。

单目深度估计的瓶颈

单目深度估计(Monocular Depth Estimation, MDE)因其简单、低成本和易于部署的特点,受到了广泛关注。与传统的深度传感技术(如LiDAR或立体视觉)不同,MDE仅需要一张RGB图像作为输入,因此在自动驾驶、虚拟现实和图像合成等多个应用领域中具有很高的吸引力。然而,这也带来了一个显著的挑战:如何在广泛的应用场景中实现卓越的泛化能力,以有效应对场景布局、深度分布、光照条件等因素的多样性和复杂性。这项任务并非易事,因为不同的场景和条件往往带来非常大的变化。

近年来,零-shot单目深度估计主要发展为两大类方法:基于数据的方法基于模型的方法。基于数据的方法:依赖于大量的图像-深度对,通过训练得到图像与深度之间的映射。然而,这一过程非常耗时且需要巨大的计算资源。与之相对,基于模型的方法则通过利用预训练的骨干网络,尤其是在稳定扩散模型(Stable Diffusion)上下文中,展现了较为高效的性能。例如,Marigold通过将深度估计重构为扩散去噪过程,在泛化和细节保留方面取得了令人印象深刻的成果。然而,迭代去噪过程导致了较低的推理速度

尽管扩散模型在单目深度估计中的应用取得了显著的进展,但很少有研究深入探讨如何最有效地将生成特征适应于判别性任务。因此,本文将重点分析扩散模型中的特征表示,特别是在如何优化去噪网络的特征表示能力上。通常,扩散模型由图像到潜在空间的编码解码器和去噪网络组成。前者将图像压缩到潜在空间并重建,而后者则负责对场景进行感知与推理。通过实验发现,主要的瓶颈在于去噪网络的特征表示能力。事实上,用于预训练去噪网络的重建任务使得模型过于关注纹理细节,导致深度预测中的纹理不真实。因此,如何增强去噪网络的特征表示能力并减少对无关细节的依赖,是将扩散模型应用于深度估计任务的关键问题。

图片

DepthMaster【1】是一个定制的单步扩散模型,旨在提升深度估计模型的泛化能力和细节保留能力。

  • 首先,我们引入了特征对齐模块(Feature Alignment),通过高质量的外部视觉表示来提升去噪网络的特征表示能力,并减少对纹理细节的过拟合。
  • 其次,为了解决单步框架中缺乏细粒度细节的问题,我们提出了傅里叶增强模块(Fourier Enhancement),在频域内自适应平衡低频结构特征和高频细节特征,从而有效模拟扩散模型中多步去噪过程的学习。

通过这些优化,我们的方法在多种数据集上超越了其他基于扩散的深度估计方法,取得了最新的性能。

主要贡献

  • 提出了DepthMaster,一种定制生成特征的创新方法,旨在将扩散模型适应于判别性深度估计任务。
  • 引入了特征对齐模块,以高质量的外部特征缓解对纹理细节的过拟合,并提出了傅里叶增强模块,以在频域内细化细粒度细节。
  • 方法展现了最新的零样本性能和卓越的细节保留能力,超越了其他基于扩散的算法,并在多个数据集上表现出色。

项目链接:https://indu1ge.github.io/DepthMaster_page/

具体方法

图片

确定性范式

特征对齐模块

稳定扩散v2由两个主要组件组成:I2L编码器-解码器和去噪U-Net。I2L编码器-解码器负责特征压缩,旨在减少推理时间和训练成本。通过图像重建训练,它主要捕捉低层特征。与此不同,U-Net负责从噪声图像中恢复图像,从而使其具备场景感知与推理能力。然而,由于U-Net是通过重建任务进行训练的,它往往过度强调细节纹理,从而导致深度预测中的伪纹理问题(如图1所示)。因此,我们引入语义正则化来增强U-Net的场景表示能力,并防止过度拟合低级的颜色信息。

傅里叶增强模块

单步范式通过避免多步迭代过程和多次运行集成,有效地加速了推理过程。然而,扩散模型输出的细粒度特征通常来自于迭代细化过程。因此,单步模型在处理时会出现模糊的预测(如图1所示)。为了缓解这一问题,我们提出了傅里叶增强模块,在频域中进行操作,以增强高频细节,从而有效模拟多步去噪过程中的学习。

加权多方向梯度损失

两阶段训练策略

由于I2L编码器-解码器的深度重建精度已经足够高,我们将重点微调U-Net。实验表明,潜在空间的监督有助于模型更好地捕捉全局场景结构,而像素级的监督则有助于捕捉细粒度的细节,但也会引入全局结构的失真。基于这些观察,我们提出了一个两阶段的训练策略。

实验效果

图片图片图片图片图片图片图片

总结一下

DepthMaster是用于定制扩散模型以适应深度估计任务。通过引入特征对齐模块,有效地缓解了对纹理细节的过拟合问题。此外,通过傅里叶增强模块在频域中操作,显著增强了细粒度细节的保留能力。得益于这些精心设计,DepthMaster在零样本性能和推理效率方面实现了显著提升。广泛的实验验证了我们方法的有效性,在泛化能力和细节保留方面达到了最新的水平,超越了其他基于扩散模型的方法,并在各种数据集上表现优异。

责任编辑:张燕妮 来源: 3D视觉之心
相关推荐

2021-11-17 16:13:45

IBM 处理器量子

2024-11-06 13:03:49

2013-06-19 11:32:32

计算性能ISCHPC

2024-06-26 14:50:52

2022-03-28 10:32:28

AI功能手势

2024-06-17 07:10:00

2024-01-15 13:11:22

模型数据

2012-11-23 10:15:55

SCC12全球超级计算大会

2021-05-07 09:34:20

量子芯片计算机

2017-03-23 17:09:45

2021-12-06 09:53:09

自然语言神经网络人工智能

2023-08-21 13:49:00

图像技术

2022-07-06 10:23:13

深度学习神经网络

2021-09-16 10:00:45

神经网络AI算法

2024-10-29 15:45:00

目标检测模型

2013-08-21 15:13:17

英特尔中科大洋广电行业

2022-02-25 23:49:31

量子研究

2009-12-14 16:38:07

自主研发机器人

2021-07-21 09:14:48

数字化

2024-04-07 09:00:00

数据模型
点赞
收藏

51CTO技术栈公众号