
Tiktok多模态大模型最新研究:显示序列建模提升视频理解能力
今天给大家介绍一篇视频多模态大模型工作,这篇文章的核心是探索了在现有的SOTA视频多模态大模型中,引入显示的视频时序建模提升模型的视频理解能力。
论文标题:Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding
下载地址:https://arxiv.org/pdf/2501.16786
1.研究背景
传统的时间序列预测方法,都是最基础的时间序列形式数据进行建模的。然而,最近一些工作将文本信息、图像信息等模态引入时间序列建模中。例如,将时间序列转换成文本形式输入到LLM,或者将时间序列转换成图像数据输入图像模型。
视频多模态大模型一般都基于训练好的Large Language Model进行扩展,实现对视频、图像等数据的处理。现有的兼容视频模态的多模态大模型中,对于是否显示考虑视频各个帧的时序关系,有两种处理方法。一种是隐式的建模,即将不同帧的图片按顺序拼接到一起,直接输入到LLM中,希望利用LLM的时序建模能力隐式建模视频时序关系。另一种方法是引入直接的时序建模模块,将时序建模表征输入LLM。
隐式时序建模无法充分建模视频时序关系,因此本文研究了显示建模视频时序关系的方法,并提出了再视频帧表征基础上使用引入 Stackable Temporal Encoder建模视频时序关系,在以LLaVA为基础的SOTA视频多模态大模型上取得显著效果提升。
2.研究背景
首先介绍一下基础的视频多模态大模型结构。以LLaVA为例,其基本结构由一个LLM和一个视觉编码器(如ViT)组成,视觉编码器的表征通过MLP(Vision-Language Projector)映射后和文本token表征拼接到一起输入到大模型。在训练方式上,采用Instruction Tuning进行图文的训练,同时也可以引入视频-文本数据进行训练,对视频采用采样帧的方式转换成图片的方式输入到LLM。
本文的核心则是在上述架构的基础上,在视觉编码器和MLP映射层之间加了一个对视频进行时序表征提取的模块(Temporal Encoder),显示的让视频表征能够考虑到前后帧的时序关系。
Temporal Encoder模块具体的结构如下图,是由多层卷积神经网络组成。每一层卷积神经网络设定了input帧数和output帧数的比例,根据这一比例通过滑动窗口进行单元的划分,每个单元内使用卷积建模单元内连续帧之间的关系,生成考虑时序信息的视频表征。每个卷积输出多个channel,每个channel对应一个维度的视频表征。
具体的卷积计算逻辑如下。每一帧都对应多个patch(共p个patch),每个patch对应一个patch embedding(维度为d),形式如下:
其中需要定义好输入的帧数(Tu)、输出的帧数(To),根据输出帧数、滑动步数等来确定每层卷积输出的channel数量,最后将每个卷积channel结果拼接到一起,还原对应的目标帧数。最终每一层输出的维度如下:
3.实验效果
通过在现有的SOTA视频多模态大模型LLaVA-OV和LLaVA-Video上的实验可以看出,引入了Temporal Encoder可以显著的提升视频理解任务上的效果。
本文转载自圆圆的算法笔记
