Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型 原创

发布于 2025-1-16 14:43
浏览
0收藏

01、概述

近年来,随着多模态模型(LMMs)在文本和图像处理任务上的进步,视频处理领域却显得有些“姗姗来迟”。与单一静态数据相比,视频集成了时间和空间维度的复杂性,对计算资源的要求更高。然而,现有方法通常沿用图像处理模型的架构,或依赖简单的均匀帧采样,这种方式难以有效捕捉视频中的动态与时间模式。此外,训练大规模视频模型耗费极大的计算资源,使得实验和创新受限。

为了解决这些问题,Meta AI 和斯坦福大学的研究人员联合推出了 Apollo —— 一款面向视频内容的多模态模型家族。Apollo 凭借创新设计、大幅提升效率,并为时间推理(Temporal Reasoning)与视频问答等任务设立了全新标杆,为视频理解领域注入了新动能。

02、视频多模态领域的里程碑:Apollo 家族亮相

Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型-AI.x社区

Apollo 是专为视频语言任务设计的多模态模型,其能力可以覆盖长达一小时的视频内容。该家族目前有三种参数规模版本:1.5B、3B 和 7B,为不同的应用场景和计算需求提供灵活选择。其设计目标是以精益的计算成本,带来强大的性能表现。

核心创新点

  1. 一致性扩展:在小规模模型上的设计能够无缝迁移至更大规模的模型,减少了大规模实验的成本。
  2. 帧率采样技术(fps Sampling):相较传统的均匀采样,帧率采样能够更高效地保留视频的动态变化。
  3. 双视觉编码器(Dual Vision Encoders):SigLIP 擅长空间理解,InternVideo2 则聚焦时间推理,二者结合提供了全面的视频数据表征。
  4. ApolloBench 基准测试套件:精简评估冗余项,提供更详尽的性能洞察。

03、Apollo 的技术亮点

Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型-AI.x社区

Apollo 的每一项设计都针对视频多模态领域的主要挑战进行优化,通过独特的策略实现视频理解能力的突破。

1) 帧率采样(fps Sampling)

帧率采样突破了传统均匀采样的局限,能够更精准地捕捉时间序列中的动态变化。例如,Apollo 可以理解视频中动作的速度、顺序和逻辑,使其在时间推理任务中表现优异。

2) 一致性扩展(Scaling Consistency)

传统大规模视频模型的开发往往需要高昂的资源投入,而 Apollo 的设计证明了,小规模模型(如 2B-4B 参数)中的有效设计可以直接迁移到大规模模型(如 7B 参数),从而降低了开发与训练的计算开销。

3) 双视觉编码器(Dual Vision Encoders)

Apollo 的架构创新在于结合了两种互补的编码器:

  • SigLIP:专注于视频的空间维度,例如物体的细节与构图。
  • InternVideo2:增强了对视频时间轴的理解,比如动作衔接和节奏。这种组合不仅弥补了单一编码器的局限,还实现了视频数据的平衡表征。

4) Token 重采样(Token Resampling)

长视频的处理往往涉及大量数据,而 Apollo 借助 Perceiver Resampler 模块高效地缩减视频 Token 数量,既减少了计算开销,又保留了关键信息。

5) 三阶段优化训练

Apollo 的训练分为三个阶段:

  1. 先针对视频数据微调视觉编码器;
  2. 再与文本和图像数据集进行集成训练;
  3. 最后优化多模态交互能力。

这种分阶段的训练方式,使得模型的学习过程更加稳定高效。

6) 多轮对话能力

Apollo 支持基于视频内容的多轮交互,例如视频问答和内容分析。这一特性为打造视频内容的智能交互系统提供了新的可能性。

04、性能表现:小模型超越大模型

Apollo 的卓越性能不仅体现在其设计理念上,更通过一系列基准测试得到了验证。在多个评估任务中,Apollo 常常表现优于参数规模更大的模型。

Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型-AI.x社区

例如:

  • Apollo-1.5B:在 Video-MME 和 MLVU 等任务中超越了许多规模为 4.2B 的模型,如 Phi-3.5-Vision。
  • Apollo-7B:即使与参数量达 30B 的顶尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表现出色。

05、ApolloBench:重新定义视频-LMM 测试标准

与 Apollo 同时发布的还有专为视频多模态任务设计的评估套件 ApolloBench。传统基准测试的一个问题是任务设置重复冗余,而 ApolloBench 则通过去冗余设计,提升了评估效率。此外,该测试套件覆盖了更广泛的视频任务维度,为模型性能提供了更全面的洞察。

实际应用:视频理解的广泛前景

Apollo 系列模型的出现,不仅为学术研究提供了重要的技术支持,也在多个实际应用场景中展现了潜力:

  • 视频问答系统:凭借多轮对话能力,Apollo 可以在视频问答和内容理解中实现流畅交互。
  • 内容分析:为娱乐、教育和广告领域提供精准的视频分析服务。
  • 长视频处理:支持长达一小时的视频数据处理,适用于会议纪要生成、视频摘要等复杂任务。

06、结语

Apollo 的问世标志着视频多模态技术迈入新纪元。通过在帧率采样、双视觉编码器等方面的深度创新,Apollo 不仅在效率和性能上树立了标杆,也为视频理解技术的普及和应用提供了更多可能性。无论是学术研究还是实际商业应用,Apollo 都是一款兼具创新性和实用性的工具,其开创性的设计为未来的多模态技术发展提供了全新视角。

参考:

  1. ​https://apollo-lmms.github.io/​
  2. ​https://arxiv.org/abs/2412.10360​


本文转载自公众号Halo咯咯    作者:基咯咯

原文链接:​​https://mp.weixin.qq.com/s/4H1diWsXqYo3VD1NNg04cg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐