长视频生成新突破!FAR模型+FlexRoPE让16倍时长创作更高效

发布于 2025-4-1 00:57
浏览
0收藏

1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction

长视频生成新突破!FAR模型+FlexRoPE让16倍时长创作更高效-AI.x社区

在语言生成领域,长上下文自回归模型已取得显著进展,但视频生成却一直难以有效利用长时间序列信息。为解决这一难题,我们提出了一种名为Frame AutoRegressive的全新视频生成方法。。

FAR借鉴了语言模型逐帧学习的思路,通过捕捉视频连续帧之间的时序因果关系,显著提升了模型的收敛效率,表现优于现有主流方法(如Token AR和视频扩散模型)。然而,长视频生成仍面临两大挑战:一是视频内容存在大量冗余信息,二是随着视频时长增加,数据量激增导致训练成本飙升。

为突破这些限制,我们进一步提出FlexRoPE技术。这项创新在推理阶段为位置编码机制(RoPE)添加了灵活的时间衰减功能,使模型能将处理时长外推至原长度的16倍,同时保持计算效率。这意味着我们只需用适配短视频的上下文长度,就能高效训练长视频模型。

实验结果显示,FAR在短视频和长视频生成中均达到当前最优水平,为视频自回归建模提供了简单而强大的基线方案。

论文: ​​https://arxiv.org/pdf/2503.19325​

2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

长视频生成新突破!FAR模型+FlexRoPE让16倍时长创作更高效-AI.x社区

预训练视觉基础模型(VFMs)是AI理解图像的核心工具,但如何让它们“学得更好”一直是技术难点。今天,我们带来一项创新:通过结合文本和图像的持续训练,让视觉模型在保持图像原始分辨率的同时,更精准地理解多模态信息。

我们的方法有三大亮点:

1️⃣ 创新训练策略:通过三阶段训练,模型不仅能“看懂”图像,还能通过语言关联优化,让图像和文本的表达更一致;2️⃣ 性能全面提升:在图像分类、目标分割等任务中表现显著提升,甚至在冻结模型参数的情况下,依然达到顶尖水平;3️⃣ 实际应用突破:例如在图表理解任务(ChartQA)中准确率达66.7%,文档问答(DocVQA)达75.9%,图像分类准确率(ImageNet-1K)更是达到87.4%,分割任务(ADE20K)表现也刷新纪录(mIoU 49.5)。

这意味着什么?通过过持续优化视觉与语言的协同能力,AI不仅能“看”得更清晰,还能“理解”更深入。

论文: ​​https://arxiv.org/pdf/2503.18931​

3. Scaling Vision Pre-Training to 4K Resolution

长视频生成新突破!FAR模型+FlexRoPE让16倍时长创作更高效-AI.x社区

在日常任务中,高分辨率感知至关重要,但目前的视觉预训练大多局限于低分辨率(例如378 x 378像素),因为处理更大图像的成本会急剧增加。为了解决这个问题,我们开发了PS3技术,它能够将视觉预训练扩展到4K分辨率,同时几乎不增加计算成本。

PS3的核心创新:

  • 局部处理代替全局对比:不同于传统的全局图像表示学习,PS3专注于选择性地处理图像中的关键区域,并与详细的局部描述进行对比,这样既能捕捉高清细节,又能大幅减少计算负担。
  • 智能聚焦:PS3模型能够在较低分辨率下编码整个图像,并根据文本提示的重要性或相关性,智能地放大和处理特定的高分辨率区域。

VILA-HD:更高效、更强大的多模态模型:

当我们把PS3应用于多模态大语言模型(MLLM)时,得到的VILA-HD不仅在高分辨率视觉感知上远超其他未经过高分辨率训练的基线模型(如AnyRes和S^2),而且使用的令牌数量减少了多达4.3倍。这意味着更高的效率和更低的成本。

性能突破:

  • 性能提升显著:VILA-HD在多个基准测试中表现出色,超越了包括NVILA和Qwen2-VL在内的先前多模态LLM。
  • 速度与精度兼顾:特别是在4KPro这个新提出的4K分辨率图像问答基准上,VILA-HD相比GPT-4o提高了14.5%的准确率,比Qwen2-VL提高了3.2%,并且运行速度快了2.96倍。

论文: ​​https://arxiv.org/pdf/2503.19903​

4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

长视频生成新突破!FAR模型+FlexRoPE让16倍时长创作更高效-AI.x社区

在图像和视频生成领域,如何提高样本质量和更好地满足用户需求一直是个挑战。最近,通过增加计算资源来提升性能的方法(推理时缩放)在大规模语言模型(LLM)和扩散模型中引起了广泛关注。然而,对于同样流行的流模型来说,由于其确定性的生成过程,现有的高效缩放技术并不适用。

为了解决这个问题,我们提出了一种新的流模型缩放方法,包括三个创新概念:

  1. 基于随机微分方程(SDE)的生成:让流模型能够像扩散模型一样利用粒子采样,从而加快生成速度并提高效率。
  2. 插值转换:扩大搜索范围,增加了样本多样性,使得生成的内容更加丰富多样。
  3. 滚轮预算强制(RBF):一种智能分配计算资源的方法,在不同的时间步骤间动态调整资源使用,以最大化预算利用效率。

我们的实验显示,采用基于SDE的生成,特别是保持方差的插值生成(VP-SDE),可以显著提升流模型在推理时缩放中的表现。更重要的是,结合了VP-SDE的RBF方法展现了最佳性能,超越了所有已有的方法。

论文: ​​​https://arxiv.org/pdf/2503.19385​

本文转载自​​AI-PaperDaily​​,作者:AI-PaperDaily

收藏
回复
举报


回复
相关推荐