Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK

发布于 2025-2-21 11:21

浏览

0收藏

今天给大家介绍一篇视频多模态大模型工作，这篇文章的核心是探索了在现有的SOTA视频多模态大模型中，引入显示的视频时序建模提升模型的视频理解能力。

Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力-AI.x社区

论文标题：Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding

下载地址：https://arxiv.org/pdf/2501.16786

1.研究背景

传统的时间序列预测方法，都是最基础的时间序列形式数据进行建模的。然而，最近一些工作将文本信息、图像信息等模态引入时间序列建模中。例如，将时间序列转换成文本形式输入到LLM，或者将时间序列转换成图像数据输入图像模型。

视频多模态大模型一般都基于训练好的Large Language Model进行扩展，实现对视频、图像等数据的处理。现有的兼容视频模态的多模态大模型中，对于是否显示考虑视频各个帧的时序关系，有两种处理方法。一种是隐式的建模，即将不同帧的图片按顺序拼接到一起，直接输入到LLM中，希望利用LLM的时序建模能力隐式建模视频时序关系。另一种方法是引入直接的时序建模模块，将时序建模表征输入LLM。

隐式时序建模无法充分建模视频时序关系，因此本文研究了显示建模视频时序关系的方法，并提出了再视频帧表征基础上使用引入 Stackable Temporal Encoder建模视频时序关系，在以LLaVA为基础的SOTA视频多模态大模型上取得显著效果提升。

Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力-AI.x社区

2.研究背景

首先介绍一下基础的视频多模态大模型结构。以LLaVA为例，其基本结构由一个LLM和一个视觉编码器（如ViT）组成，视觉编码器的表征通过MLP（Vision-Language Projector）映射后和文本token表征拼接到一起输入到大模型。在训练方式上，采用Instruction Tuning进行图文的训练，同时也可以引入视频-文本数据进行训练，对视频采用采样帧的方式转换成图片的方式输入到LLM。

Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力-AI.x社区

本文的核心则是在上述架构的基础上，在视觉编码器和MLP映射层之间加了一个对视频进行时序表征提取的模块（Temporal Encoder），显示的让视频表征能够考虑到前后帧的时序关系。

Temporal Encoder模块具体的结构如下图，是由多层卷积神经网络组成。每一层卷积神经网络设定了input帧数和output帧数的比例，根据这一比例通过滑动窗口进行单元的划分，每个单元内使用卷积建模单元内连续帧之间的关系，生成考虑时序信息的视频表征。每个卷积输出多个channel，每个channel对应一个维度的视频表征。

Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力-AI.x社区