Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源

angel

发布于 2025-1-24 13:30

浏览

0收藏

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

论文链接：https://arxiv.org/pdf/2501.12375
git 链接：https://videodepthanything.github.io/

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

亮点直击

开发了一种新方法，将“Depth Anything”转换为“视频Depth Anything”，用于任意长度视频的深度估计。
提出了一种简单而有效的损失函数，该函数在不引入几何或生成先验的情况下，强制执行时间一致性约束。
该模型不仅在视频深度估计中（空间和时间上）获得了新的SOTA（最先进技术），而且在计算效率上也是最高的。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

总结速览

解决的问题

Depth Anything在单目深度估计中表现出色，但在视频应用中存在时间不一致性的问题，限制了其实用性。现有方法虽然尝试解决这一问题，但仅适用于短视频，并在质量与计算效率之间存在权衡。

提出的方案

提出了Video Depth Anything模型，旨在解决超长视频中的深度估计问题。该方案通过替换Depth Anything V2的头部为高效的时空头，并设计了一种简单有效的时间一致性损失函数，来约束时间深度梯度，无需额外几何先验。

应用的技术

使用高效的时空头替换原有模型head。
设计时间一致性损失函数，约束时间深度梯度。
基于视频深度和未标记图像的联合数据集进行训练。
开发基于关键帧的策略用于长视频推理。

达到的效果

实现了对超长视频的高质量、一致性深度估计，而不牺牲计算效率。
在零样本视频深度估计中设立了新的技术标准。
提供不同规模的模型，支持多种场景，最小模型可实现30 FPS的实时性能。

Video Depth Anything

Video Depth Anything，这是一种前馈视频变换模型，用于高效估计时间一致的视频深度。本文采用仿射不变深度，但在整个视频中共享相同的尺度和偏移。我们方法的流程如下图2所示。本文模型基于Depth Anything V2构建，增加了时间模块和视频数据集训练。提出了一种新的损失函数，以增强时间一致性。最后，我们提出了一种结合重叠帧和关键帧的策略，以高效支持超长视频推理。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

架构

由于缺乏足够的视频深度数据，从一个预训练的图像深度估计模型Depth Anything V2开始，并采用图像和视频数据的联合训练策略。

Depth Anything V2 编码器。 Depth Anything V2 是当前最先进的单目深度估计模型，以其高精度和泛化能力为特点。我们使用其训练好的模型作为我们的编码器。为了降低训练成本并保留已学习的特征，训练过程中编码器是冻结的。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

时间梯度匹配损失

从基于光流的扭曲（OPW）损失开始，随后探索新的损失设计，并最终提出一种不依赖光流的时间梯度匹配损失（TGM），但仍能确保帧间预测的时间一致性。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

时间梯度匹配损失（TGM）。 在计算损失时，不假设相邻帧中对应点的深度保持不变。相反，假设相邻预测帧中对应点的深度变化应与在真实数据中观察到的变化一致。我们将这种差异称为稳定误差（SE），其定义为：

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

然而，生成光流会产生额外的开销。为了解决对光流的依赖，进一步推广了上述假设。具体来说，不需要使用从光流获得的对应点。相反，我们直接使用相邻帧中相同坐标处的深度来计算损失。假设是，相邻帧中同一图像位置的深度变化应该与真实值中的变化一致。由于这个过程类似于计算时间维度上的值的梯度，我们称之为时间梯度匹配损失，其定义为：

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

超长序列的推理策略

为了处理任意长度的视频，一个简单的方法是将来自不同视频窗口的模型输出进行拼接。然而，这种方法无法确保窗口之间的平滑过渡。一个更复杂的技术是推断具有重叠区域的视频窗口。通过利用重叠区域的预测深度来计算仿射变换，可以将一个窗口的预测与另一个窗口对齐。然而，这种方法可能会通过连续的仿射对齐引入累积误差，导致在延长视频中出现深度漂移。为了解决超长视频中推理窗口大小有限的问题，提出了关键帧参考以继承过去预测的尺度和偏移信息，以及重叠插值以确保局部窗口之间的平滑推理。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

实验

评估

数据集。 为了对视频深度估计进行定量评估，使用了五个涵盖广泛场景的数据集，包括室内 [7, 22, 24]、室外 [11] 和野外环境 [5]。每个视频最多使用500帧进行评估，这比 [13] 中使用的110帧要多得多。有关110帧的结果，请参见附录中的详细信息。除了视频深度评估，我们还在五个图像基准 [5, 11, 15, 22, 31] 上评估了模型在静态图像 [42] 上的性能。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

零样本深度估计

我们将我们的模型与四个代表性的视频深度估计模型进行比较：NVDS、ChronoDepth、DepthCrafter 和 DepthAnyVideo，基于已建立的视频深度基准。此外，我们引入了两个强大的基线，1）Depth Anything V2（DAv2），以及2）NVDS + DAv2，即用DAv2替换NVDS中的基础模型。需要注意的是，DepthAnyVideo支持每个视频最多192帧；因此，仅在Sintel数据集上报告该模型的指标，因为其他数据集包含的视频帧数超过了此限制。在静态图像评估中，将我们的模型与DepthCrafter、DepthAnyVideo和 Depth Anything V2的性能进行比较。

视频深度结果。 如下表1所示，VDA模型在所有长视频数据集上实现了最先进的性能，在几何和时间指标上都表现出色。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

图像深度结果。 如下表2所示，视频深度模型在大多数数据集中实现了与DAv2-L相当的深度指标。这表明我们的模型在保持基础模型的几何准确性的同时，也确保了视频稳定性。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

长视频定量结果。 从Bonn 和 Scannet 中各选择了10个场景，从NYUv2 中选择了8个场景，每个场景包括500个视频帧。然后，我们在帧长度为110、192、300、400和500时评估视频深度，其中110和192对应于DepthCrafter 和 DepthAnyVideo 的最大窗口大小。指标的变化如下图4所示。如图所示，我们的模型在所有数据集中所有评估帧长度上显著优于DepthCrafter，并且随着帧数的增加，指标的下降最小。此外，我们的模型在Scannet和 NYUv2 上超过了DepthAnyVideo ，并在Bonn 的110和192帧指标上取得了相当的结果。最值得注意的是，我们的方法支持对任意长视频进行推断，在实际应用中具有显著优势。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

定性结果

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

除了长视频外，在下图6中展示了野外短视频的结果。Depth Any Video即使在单个参考窗口内也表现出深度不一致，如蓝色方框所示。尽管DepthCrafter 相比Depth Any Video 在视频帧之间展示了更平滑的深度，但在某些复杂环境中未能准确估计深度。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

推理时间。 在A100 GPU上测量了各种模型的推理延迟。如上表3所示，与基于扩散的方法（DepthAnyVideo和DepthCrafter）以及基于变换器的方法（NVDS）相比，我们的大模型实现了最低的推理时间。这种性能归因于我们的前馈变换器结构和轻量级时间模块。值得注意的是，我们的大模型VDA-L的延迟仅比使用相同编码器结构的DAv2-L大约高10%，从而展示了我们时空头的效率。此外，我们的小模型的推理延迟小于10毫秒，表明其在实时应用中的潜力。

消融研究

在本节中，除非另有说明，我们使用窗口大小为16的VDA-S模型进行研究，并且不使用图像蒸馏。未注明数据集名称的指标表示所有数据集的平均值。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

推理策略。 为分析我们的推理策略，考虑了四种不同的推理方案。Baseline：在没有重叠帧的情况下独立对每个窗口进行推理。重叠对齐（OA）：基于两个相邻窗口之间的重叠帧的尺度平移不变对齐，将两个窗口拼接在一起。重叠插值（OI）：依据DepthCrafter 的方法，在重叠区域进行线性插值后拼接两个窗口。重叠插值+关键帧参考（OI+KR）：在OI的基础上，额外引入前一个窗口的关键帧作为当前推理的参考。如下表5所示，OA达到了与OI+KR相当的指标。然而，它在长视频推理过程中导致了累积的尺度漂移。下图7展示了这一问题，我们在一个时长为4分04秒的视频上评估了OA和OI+KR。值得注意的是，OA处理的最后一帧中红框区域突出了深度尺度的累积漂移。相比之下，OI+KR在整个视频过程中更有效地保持了全局尺度一致性。OA在评估数据集上表现较好的一个可能解释是，500帧的评估视频数据集不足以反映现实世界中长时间视频遇到的尺度漂移问题。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

窗口大小。 如上表5所示，窗口大小为32的模型在几何精度和时间一致性方面优于窗口大小为16的模型。然而，将窗口大小增加到32以上并没有带来额外的好处。考虑到更大的窗口大小需要更多的训练和推理资源，我们为最终模型选择了窗口大小为32。

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源-AI.x社区

结论

Video Depth Anything，用于估计时间一致性的视频深度。该模型基于Depth Anything V2构建，并依赖于三个关键组件。首先，采用时空head，通过对特征图应用时间自注意力层来引入时间交互。其次，使用一种简单的时间梯度匹配损失函数来强制时间一致性。第三，为了实现长视频深度估计，开发了一种新的基于关键帧的策略，用于分段推理，并结合深度拼接方法。广泛的实验表明，模型在三个方面实现了最先进的性能：空间精度、时间一致性和计算效率。因此，它可以为持续数分钟的视频生成高质量的深度预测。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/N_PhwyaWf2YyW7C-dQJtxw

标签

视频生成

模型

51CTO

51CTO博客

51CTO学堂

Video Depth Anything引领超长视频深度估计最新SOTA！字节跳动开源

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

Video Depth Anything

架构

时间梯度匹配损失

超长序列的推理策略

实验

评估

零样本深度估计

消融研究

结论

目录