NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

发布于 2024-9-4 11:57

浏览

0收藏

随着互联网和社交媒体平台上视频内容的爆炸性增长，视频理解技术的重要性日益凸显。视频理解不仅仅是对视频内容的简单分类或标签化，而是深入分析视频中的动作、场景、情节和语义信息。这项技术在多个领域具有广泛的应用前景，包括视频摘要、内容检索、内容审核、版权保护和智能推荐等。

在信息时代，视频理解技术扮演着越来越重要的角色。随着视频内容的激增，如何有效地理解和处理这些内容成为了一个关键问题。视频理解不仅仅是对视频进行分类或标注，而是需要深入分析视频中的动作、场景、情节和语义信息，这项技术在多个领域具有广泛的应用前景。

视频摘要方面，通过自动生成视频摘要，用户可以快速获取视频的核心内容，节省时间和精力。这在新闻、教育和娱乐等领域尤为重要。内容检索方面，视频理解技术可以帮助用户通过视频内容进行搜索和检索，提高信息获取的效率。例如，在大型视频库中快速找到相关视频片段。内容审核方面，自动检测和过滤不良内容，保障平台内容的安全性。这对于社交媒体平台和视频分享网站尤为重要，可以有效防止不良信息的传播。版权保护方面，通过识别和管理视频内容的版权信息，防止侵权行为的发生。这对于保护创作者的权益和维护市场秩序具有重要意义。智能推荐方面，根据用户的观看历史和偏好，推荐相关视频内容，提升用户体验。这在流媒体平台和视频分享网站中得到了广泛应用。

目前，大多数视频理解研究主要集中在短视频的处理上，这些方法通常依赖于卷积神经网络（CNN）和Transformer等模型。然而长视频理解面临着更大的挑战，主要包括时间复杂性、语义理解和内存计算限制等问题。

长视频包含大量帧，处理这些帧需要高效的时间序列分析方法。现有的方法在处理长视频时，往往无法有效应对时间复杂性的问题。长视频通常包含复杂的叙事结构和高层次的语义信息，需要对视频中的高层次概念和叙事结构进行深刻理解。然而，现有的方法在语义理解方面表现不足。处理长视频需要大量的计算资源和内存，现有方法在这方面往往表现不足，难以在实际应用中推广。

尽管一些研究尝试将短视频理解的方法扩展到长视频，但这些方法通常未能充分考虑长视频的独特特性，导致性能提升有限。例如，传统的方法往往将长视频视为多个短视频的简单拼接，忽略了长视频中情节和语义的连续性和复杂性。

为了填补现有方法在长视频理解中的空白，NVIDIA、国立台湾大学和国立清华大学（中国台湾）的联合团队提出了一个新的框架——BREASE（BRidging Episodes And SEmantics）。该框架的设计灵感来自于人类的认知过程，旨在通过模拟情节记忆积累和语义知识的结合，更准确地理解长视频内容。

BREASE框架的主要目标是开发一个高效的情节压缩器（Episodic COmpressor，ECO），能够从微观到半宏观层面聚合关键表示，捕捉视频中的动作序列。ECO通过模拟人类的情节记忆积累过程，有效地将视频内容分解为多个情节单元，从而提高模型的理解能力。此外，BREASE还提出了一个语义检索器（Semantics reTRiever，SeTR），通过关注更广泛的上下文，增强模型对视频内容的理解，显著减少特征维度，同时保留相关的宏观信息。SeTR通过提取视频中的高层次语义信息，帮助模型更好地理解视频的整体结构和内容。

通过这两个关键组件，BREASE框架在多个长视频理解基准上实现了最先进的性能，显著超越了现有方法。论文的研究目标是通过BREASE框架，解决长视频理解中的时间复杂性、语义理解和内存计算限制等问题，为视频理解技术的发展提供新的思路和方法。大量实验表明，BREASE 在零样本和全监督设置的多个长视频理解基准中均实现了最佳性能。项目页面和代码位于：https://joslefaure.github.io/assets/html/hermes.html。

这项研究由来自不同机构的专家团队合作完成，成员有来自国立台湾大学的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu，他们在视频理解和计算机视觉领域有着丰富的研究经验。Winston H. Hsu不仅是国立台湾大学的教授，还在Mobile Drive Technology担任重要职务，负责项目的整体协调和技术指导。来自NVIDIA的Min-Hung Chen，专注于深度学习和视频理解技术的研究，为团队带来了工业界的先进技术和实践经验。国立清华大学的Shang-Hong Lai，专注于计算机视觉和图像处理领域的研究，为团队提供了坚实的学术支持。

这个多机构合作团队结合了学术界和工业界的力量，致力于推进长视频理解的研究。通过他们的共同努力，BREASE框架在长视频理解领域取得了显著的进展，为视频理解技术的发展提供了新的思路和方法。

方法

BREASE的设计理念

BREASE（BRidging Episodes And SEmantics）框架的设计灵感来自于人类的认知过程，旨在通过模拟情节记忆积累和语义知识的结合，更准确地理解长视频内容。该框架的核心理念是将视频内容分解为多个情节单元，并通过语义信息进行强化，从而提高模型的理解能力。BREASE框架由多个模块组成，每个模块在视频处理的不同阶段发挥关键作用。

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义-AI.x社区

图1：框架概述。逐窗口流式传输视频，并使用冻结的ViT提取特征。每个窗口特征都由ECO（如图左下所示）以在线方式处理，在此过程中丢弃冗余，并保留传递给情节Q-Former的视频片段。视频令牌库包含每个窗口的特征，SeTR仅选择高级信息传递到分层帧以对Q-Former进行排序。然后将情节和高级表示连接起来，然后馈送到冻结的LLM，LLM按照指令输出文本。

视频编码的初步处理

BREASE框架的第一步是对视频进行编码处理。为了处理任意长度的视频，首先需要指定要提取的帧数，将视频分割成若干不重叠的窗口。每个窗口的特征由ViT-G/14模型逐步编码，提取出视频数据的特征表示。这些特征表示将作为后续处理的输入，为情节压缩器（ECO）提供基础数据。

情节压缩器的工作机制

ECO（Episodic COmpressor）是BREASE框架中的关键组件之一，负责将视频内容分解为多个情节单元。ECO通过维护一个最大容量为E的记忆缓冲区，接收窗口特征后，检查缓冲区是否有足够带宽。如果有，则直接连接；否则进行压缩。ECO的核心是通过计算帧特征的余弦相似度，合并最相似的帧，直到满足大小约束。这样可以有效地减少冗余信息，保留视频中的关键情节。

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义-AI.x社区

其中M是现有缓冲区，Fw表示w帧特征的传入窗口，A是连接的缓冲区和新窗口，∥A∤A的大小。总结方程式（2），Ai·Aj Ai Aj计算帧特征Ai和Aj之间的余弦相似度，arg-maxi̸=j找到余弦相似度最高的帧对，（Ai∗+Aj∗）2组合最相似的帧，A\Aj*删除帧Aj*合并后的A。重复该过程，直到A的大小在允许的最大事件E范围内，并且A成为新的缓冲区M′。

情节查询变换器的作用

Episodic Q-Former使用与原始Q-Former相同的架构，通过自注意力和交叉注意力机制处理初始查询和视觉表示。具体来说，Episodic Q-Former首先对初始查询进行自注意力处理，然后与ECO提供的视觉表示进行交叉注意力处理。经过这一过程，查询被增强，并通过类似ECO的过程合并相似查询，形成高信息密度的情节。这有助于在整个视频中保持查询的数量恒定，提高模型的处理效率。

语义检索器的功能

SeTR（Semantics reTRiever）是BREASE框架中的另一个关键组件，负责从视频特征中提取高层次的语义信息。SeTR通过归一化特征、分组、计算相似度分数并合并最相似的帧，减少帧数，保留最相关的特征。具体来说，SeTR首先对视频特征进行归一化处理，然后将帧分为两组，计算两组帧之间的相似度分数，并合并最相似的帧。这样可以有效地减少特征维度，同时保留视频中的关键语义信息。

将视频表示转化为自然语言输出

在BREASE框架中，SeTR提取的语义表示通过层次化Q-Former处理后，与Episodic Q-Former的输出连接，投射到大语言模型（如Vicuna-7B）的输入空间。大语言模型根据提供的指令，生成所需的自然语言输出。这一过程将视频的视觉表示转化为自然语言描述，使得模型能够回答与视频内容相关的问题，生成视频字幕，或进行其他形式的文本生成任务。

通过这些模块的协同工作，BREASE框架能够高效地处理和理解长视频内容，显著提高了视频理解的性能和准确性。

实验与结果

LVU和MovieChat数据集

在本研究中，BREASE框架的性能在两个主要数据集上进行了评估：LVU和MovieChat。LVU数据集专注于电影内容和元数据，提供了丰富的长视频分类任务。MovieChat数据集则是一个新引入的数据集，专门用于长视频问答任务，涵盖了电影中的对话和情节信息。这两个数据集的选择，旨在全面评估BREASE框架在不同长视频理解任务中的表现。

在不同数据集上的表现

在实验中，BREASE框架展示了其在长视频理解任务中的卓越性能。通过对LVU和MovieChat数据集的测试，BREASE框架在多个基准上实现了最先进的结果，显著超越了现有方法。

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义-AI.x社区

表1：LVU数据集的SOTA比较：该表显示了各种模型的前1精度。最高分以粗体突出显示，次高分以下划线突出显示。与其他方法中观察到的微小增量改进不同，我们的模型表现出了显著的性能飞跃，平均比其最接近的竞争对手高出7.3%。

分类准确率的提升

在LVU数据集上，BREASE框架的表现尤为突出。实验结果显示，BREASE在长视频分类任务中的top-1分类准确率显著提高了7.3%。这一显著提升表明，BREASE框架在处理复杂电影内容和元数据时，能够更好地捕捉和理解视频中的关键情节和语义信息。

零样本和完全监督场景下的表现

在MovieChat数据集上，BREASE框架同样表现出色。在零样本模式下，BREASE的准确率提高了14.9%，显著超过了之前的最先进方法。此外，在完全监督场景下，BREASE框架通过对MovieChat训练集进行一次训练，进一步提升了模型的性能。这些结果表明，BREASE框架在处理长视频问答任务时，能够有效地理解和回答与视频内容相关的问题。

ECO和SeTR的重要性分析

为了进一步验证BREASE框架中各个组件的重要性，研究团队进行了多次消融实验，重点分析了ECO和SeTR的作用。

在ECO的重要性实验中，结果表明，缺少ECO会导致模型性能显著下降。具体来说，ECO通过有效地压缩和聚合视频中的情节信息，显著提高了模型的理解能力。相比之下，使用随机选择特征或FIFO流式方法的替代策略，均未能达到ECO的效果。

在SeTR的重要性实验中，结果显示，移除SeTR会导致准确率下降5%。SeTR通过提取视频中的高层次语义信息，帮助模型更好地理解视频的整体结构和内容。相比之下，简单的方法如最大池化和平均池化效果不如SeTR。

通过这些消融实验，研究团队验证了ECO和SeTR在BREASE框架中的关键作用，进一步证明了BREASE框架在长视频理解任务中的卓越性能。

BREASE框架在LVU和MovieChat数据集上的实验结果，展示了其在长视频理解任务中的强大能力。通过有效地结合情节记忆和语义信息，BREASE框架为长视频理解提供了一个新的思路，显著提升了视频理解的性能和准确性。

讨论

BREASE框架的创新点

BREASE框架在长视频理解领域引入了多项创新，显著提升了模型的性能和理解能力。首先，BREASE通过模拟人类的认知过程，将视频内容分解为多个情节单元，并通过语义信息进行强化。这种方法不仅提高了模型对视频内容的理解深度，还有效地减少了冗余信息。

Episodic COmpressor (ECO) 是BREASE框架中的关键组件之一。ECO通过维护一个记忆缓冲区，动态地压缩和聚合视频中的情节信息，保留了视频中的关键情节。这种方法模拟了人类的情节记忆积累过程，使得模型能够更好地捕捉视频中的动作序列和情节变化。

Semantics reTRiever (SeTR) 则通过提取视频中的高层次语义信息，增强了模型对视频内容的理解。SeTR通过归一化特征、分组、计算相似度分数并合并最相似的帧，减少了特征维度，同时保留了视频中的关键语义信息。这种方法不仅提高了模型的处理效率，还增强了模型对视频整体结构和内容的理解。

与现有方法的对比

在多个长视频理解基准上，BREASE框架展示了其卓越的性能。与现有方法相比，BREASE在LVU和MovieChat数据集上的表现尤为突出。在LVU数据集上，BREASE的top-1分类准确率显著提高了7.3%，展示了其在处理复杂电影内容和元数据时的强大能力。在MovieChat数据集上，BREASE在零样本模式下的准确率提高了14.9%，显著超过了之前的最先进方法。这些结果表明，BREASE框架在处理长视频问答任务时，能够有效地理解和回答与视频内容相关的问题。

通过消融实验，研究团队进一步验证了ECO和SeTR在BREASE框架中的关键作用。结果显示，缺少ECO会导致模型性能显著下降，而移除SeTR则会导致准确率下降5%。这些实验结果进一步证明了BREASE框架在长视频理解任务中的卓越性能。

在实际应用中的潜力

BREASE框架在实际应用中具有广泛的潜力。首先，在视频摘要方面，BREASE可以自动生成视频摘要，帮助用户快速获取视频的核心内容，节省时间和精力。这在新闻、教育和娱乐等领域尤为重要。其次，在内容检索方面，BREASE可以通过视频内容进行搜索和检索，提高信息获取的效率。例如，在大型视频库中快速找到相关视频片段。

在内容审核方面，BREASE可以自动检测和过滤不良内容，保障平台内容的安全性。这对于社交媒体平台和视频分享网站尤为重要，可以有效防止不良信息的传播。在版权保护方面，BREASE可以识别和管理视频内容的版权信息，防止侵权行为的发生。这对于保护创作者的权益和维护市场秩序具有重要意义。

此外，BREASE还可以用于智能推荐，根据用户的观看历史和偏好，推荐相关视频内容，提升用户体验。这在流媒体平台和视频分享网站中得到了广泛应用。总的来说，BREASE框架为长视频理解提供了一个新的思路，展示了其在处理复杂视频数据方面的强大能力和广泛应用前景。

参考资料：https://arxiv.org/pdf/2408.17443

本文转载自大噬元兽，作者： FlerkenS

标签

NVIDIA

BREASE

情节

51CTO

51CTO博客

51CTO学堂

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

相关工作

方法

BREASE的设计理念

视频编码的初步处理

情节压缩器的工作机制

情节查询变换器的作用

语义检索器的功能

将视频表示转化为自然语言输出

实验与结果

LVU和MovieChat数据集

分类准确率的提升

零样本和完全监督场景下的表现

ECO和SeTR的重要性分析

讨论

BREASE框架的创新点

与现有方法的对比

在实际应用中的潜力

目录