Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型 原创
01、概述
近年来,随着多模态模型(LMMs)在文本和图像处理任务上的进步,视频处理领域却显得有些“姗姗来迟”。与单一静态数据相比,视频集成了时间和空间维度的复杂性,对计算资源的要求更高。然而,现有方法通常沿用图像处理模型的架构,或依赖简单的均匀帧采样,这种方式难以有效捕捉视频中的动态与时间模式。此外,训练大规模视频模型耗费极大的计算资源,使得实验和创新受限。
为了解决这些问题,Meta AI 和斯坦福大学的研究人员联合推出了 Apollo —— 一款面向视频内容的多模态模型家族。Apollo 凭借创新设计、大幅提升效率,并为时间推理(Temporal Reasoning)与视频问答等任务设立了全新标杆,为视频理解领域注入了新动能。
02、视频多模态领域的里程碑:Apollo 家族亮相
Apollo 是专为视频语言任务设计的多模态模型,其能力可以覆盖长达一小时的视频内容。该家族目前有三种参数规模版本:1.5B、3B 和 7B,为不同的应用场景和计算需求提供灵活选择。其设计目标是以精益的计算成本,带来强大的性能表现。
核心创新点
- 一致性扩展:在小规模模型上的设计能够无缝迁移至更大规模的模型,减少了大规模实验的成本。
- 帧率采样技术(fps Sampling):相较传统的均匀采样,帧率采样能够更高效地保留视频的动态变化。
- 双视觉编码器(Dual Vision Encoders):SigLIP 擅长空间理解,InternVideo2 则聚焦时间推理,二者结合提供了全面的视频数据表征。
- ApolloBench 基准测试套件:精简评估冗余项,提供更详尽的性能洞察。
03、Apollo 的技术亮点
Apollo 的每一项设计都针对视频多模态领域的主要挑战进行优化,通过独特的策略实现视频理解能力的突破。
1) 帧率采样(fps Sampling)
帧率采样突破了传统均匀采样的局限,能够更精准地捕捉时间序列中的动态变化。例如,Apollo 可以理解视频中动作的速度、顺序和逻辑,使其在时间推理任务中表现优异。
2) 一致性扩展(Scaling Consistency)
传统大规模视频模型的开发往往需要高昂的资源投入,而 Apollo 的设计证明了,小规模模型(如 2B-4B 参数)中的有效设计可以直接迁移到大规模模型(如 7B 参数),从而降低了开发与训练的计算开销。
3) 双视觉编码器(Dual Vision Encoders)
Apollo 的架构创新在于结合了两种互补的编码器:
- SigLIP:专注于视频的空间维度,例如物体的细节与构图。
- InternVideo2:增强了对视频时间轴的理解,比如动作衔接和节奏。这种组合不仅弥补了单一编码器的局限,还实现了视频数据的平衡表征。
4) Token 重采样(Token Resampling)
长视频的处理往往涉及大量数据,而 Apollo 借助 Perceiver Resampler 模块高效地缩减视频 Token 数量,既减少了计算开销,又保留了关键信息。
5) 三阶段优化训练
Apollo 的训练分为三个阶段:
- 先针对视频数据微调视觉编码器;
- 再与文本和图像数据集进行集成训练;
- 最后优化多模态交互能力。
这种分阶段的训练方式,使得模型的学习过程更加稳定高效。
6) 多轮对话能力
Apollo 支持基于视频内容的多轮交互,例如视频问答和内容分析。这一特性为打造视频内容的智能交互系统提供了新的可能性。
04、性能表现:小模型超越大模型
Apollo 的卓越性能不仅体现在其设计理念上,更通过一系列基准测试得到了验证。在多个评估任务中,Apollo 常常表现优于参数规模更大的模型。
例如:
- Apollo-1.5B:在 Video-MME 和 MLVU 等任务中超越了许多规模为 4.2B 的模型,如 Phi-3.5-Vision。
- Apollo-7B:即使与参数量达 30B 的顶尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表现出色。
05、ApolloBench:重新定义视频-LMM 测试标准
与 Apollo 同时发布的还有专为视频多模态任务设计的评估套件 ApolloBench。传统基准测试的一个问题是任务设置重复冗余,而 ApolloBench 则通过去冗余设计,提升了评估效率。此外,该测试套件覆盖了更广泛的视频任务维度,为模型性能提供了更全面的洞察。
实际应用:视频理解的广泛前景
Apollo 系列模型的出现,不仅为学术研究提供了重要的技术支持,也在多个实际应用场景中展现了潜力:
- 视频问答系统:凭借多轮对话能力,Apollo 可以在视频问答和内容理解中实现流畅交互。
- 内容分析:为娱乐、教育和广告领域提供精准的视频分析服务。
- 长视频处理:支持长达一小时的视频数据处理,适用于会议纪要生成、视频摘要等复杂任务。
06、结语
Apollo 的问世标志着视频多模态技术迈入新纪元。通过在帧率采样、双视觉编码器等方面的深度创新,Apollo 不仅在效率和性能上树立了标杆,也为视频理解技术的普及和应用提供了更多可能性。无论是学术研究还是实际商业应用,Apollo 都是一款兼具创新性和实用性的工具,其开创性的设计为未来的多模态技术发展提供了全新视角。
参考:
本文转载自公众号Halo咯咯 作者:基咯咯