Meta AI 发布 Apollo：视频理解的新家族——LMM 大型多模态模型原创

发布于 2025-1-16 14:43

浏览

0收藏

01、概述

近年来，随着多模态模型（LMMs）在文本和图像处理任务上的进步，视频处理领域却显得有些“姗姗来迟”。与单一静态数据相比，视频集成了时间和空间维度的复杂性，对计算资源的要求更高。然而，现有方法通常沿用图像处理模型的架构，或依赖简单的均匀帧采样，这种方式难以有效捕捉视频中的动态与时间模式。此外，训练大规模视频模型耗费极大的计算资源，使得实验和创新受限。

为了解决这些问题，Meta AI 和斯坦福大学的研究人员联合推出了 Apollo —— 一款面向视频内容的多模态模型家族。Apollo 凭借创新设计、大幅提升效率，并为时间推理（Temporal Reasoning）与视频问答等任务设立了全新标杆，为视频理解领域注入了新动能。

02、视频多模态领域的里程碑：Apollo 家族亮相

Meta AI 发布 Apollo：视频理解的新家族——LMM 大型多模态模型-AI.x社区

Apollo 是专为视频语言任务设计的多模态模型，其能力可以覆盖长达一小时的视频内容。该家族目前有三种参数规模版本：1.5B、3B 和 7B，为不同的应用场景和计算需求提供灵活选择。其设计目标是以精益的计算成本，带来强大的性能表现。

核心创新点

一致性扩展：在小规模模型上的设计能够无缝迁移至更大规模的模型，减少了大规模实验的成本。
帧率采样技术（fps Sampling）：相较传统的均匀采样，帧率采样能够更高效地保留视频的动态变化。
双视觉编码器（Dual Vision Encoders）：SigLIP 擅长空间理解，InternVideo2 则聚焦时间推理，二者结合提供了全面的视频数据表征。
ApolloBench 基准测试套件：精简评估冗余项，提供更详尽的性能洞察。

03、Apollo 的技术亮点

Meta AI 发布 Apollo：视频理解的新家族——LMM 大型多模态模型-AI.x社区

Apollo 的每一项设计都针对视频多模态领域的主要挑战进行优化，通过独特的策略实现视频理解能力的突破。

1）帧率采样（fps Sampling）

帧率采样突破了传统均匀采样的局限，能够更精准地捕捉时间序列中的动态变化。例如，Apollo 可以理解视频中动作的速度、顺序和逻辑，使其在时间推理任务中表现优异。

2）一致性扩展（Scaling Consistency）

传统大规模视频模型的开发往往需要高昂的资源投入，而 Apollo 的设计证明了，小规模模型（如 2B-4B 参数）中的有效设计可以直接迁移到大规模模型（如 7B 参数），从而降低了开发与训练的计算开销。

3）双视觉编码器（Dual Vision Encoders）

Apollo 的架构创新在于结合了两种互补的编码器：

SigLIP：专注于视频的空间维度，例如物体的细节与构图。
InternVideo2：增强了对视频时间轴的理解，比如动作衔接和节奏。这种组合不仅弥补了单一编码器的局限，还实现了视频数据的平衡表征。

4） Token 重采样（Token Resampling）

长视频的处理往往涉及大量数据，而 Apollo 借助 Perceiver Resampler 模块高效地缩减视频 Token 数量，既减少了计算开销，又保留了关键信息。

5）三阶段优化训练

Apollo 的训练分为三个阶段：

先针对视频数据微调视觉编码器；
再与文本和图像数据集进行集成训练；
最后优化多模态交互能力。

这种分阶段的训练方式，使得模型的学习过程更加稳定高效。

6）多轮对话能力

Apollo 支持基于视频内容的多轮交互，例如视频问答和内容分析。这一特性为打造视频内容的智能交互系统提供了新的可能性。

04、性能表现：小模型超越大模型

Apollo 的卓越性能不仅体现在其设计理念上，更通过一系列基准测试得到了验证。在多个评估任务中，Apollo 常常表现优于参数规模更大的模型。

Meta AI 发布 Apollo：视频理解的新家族——LMM 大型多模态模型-AI.x社区

例如：

Apollo-1.5B：在 Video-MME 和 MLVU 等任务中超越了许多规模为 4.2B 的模型，如 Phi-3.5-Vision。
Apollo-7B：即使与参数量达 30B 的顶尖模型（如 Oryx-34B 和 VILA1.5-40B）相比，也表现出色。

05、ApolloBench：重新定义视频-LMM 测试标准

与 Apollo 同时发布的还有专为视频多模态任务设计的评估套件 ApolloBench。传统基准测试的一个问题是任务设置重复冗余，而 ApolloBench 则通过去冗余设计，提升了评估效率。此外，该测试套件覆盖了更广泛的视频任务维度，为模型性能提供了更全面的洞察。

实际应用：视频理解的广泛前景

Apollo 系列模型的出现，不仅为学术研究提供了重要的技术支持，也在多个实际应用场景中展现了潜力：

视频问答系统：凭借多轮对话能力，Apollo 可以在视频问答和内容理解中实现流畅交互。
内容分析：为娱乐、教育和广告领域提供精准的视频分析服务。
长视频处理：支持长达一小时的视频数据处理，适用于会议纪要生成、视频摘要等复杂任务。

06、结语

Apollo 的问世标志着视频多模态技术迈入新纪元。通过在帧率采样、双视觉编码器等方面的深度创新，Apollo 不仅在效率和性能上树立了标杆，也为视频理解技术的普及和应用提供了更多可能性。无论是学术研究还是实际商业应用，Apollo 都是一款兼具创新性和实用性的工具，其开创性的设计为未来的多模态技术发展提供了全新视角。

参考：

本文转载自公众号Halo咯咯作者：基咯咯

原文链接：https://mp.weixin.qq.com/s/4H1diWsXqYo3VD1NNg04cg

标签

多模态

大语言模型