北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点-51CTO.COM

AI能理解搞笑视频笑点在哪里了。

AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示，Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的，而视频描述了自由女神像的多个角度，表明它们来自同一个地方。

这项工作具体贡献如下：

Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中，使得大型语言模型能够同时对图像和视频进行视觉推理能力。
Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中，将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的，该编码器将不同的模态映射到文本特征空间中，提供了一个统一的视觉表示。然后，统一的视觉表示经过共享的投影层和词嵌入层进行编码，以将统一的视觉表示映射给大型语言模型使用。
Video-LLaVA在视频上表现出色，在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力，研究团队做了充分实验。

视频理解能力实验。

如表3所示，Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT，并且涨幅相当可观。