
LLM合集:视频生成新王炸!Step-Video-T2V,全方位碾压开源与商业模型
1. Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
我们提出了 Step-Video-T2V,这是个有 300 亿参数的超厉害的文本到视频预训练模型,它能生成有 204 帧那么长的视频内容。为了做好视频生成这个任务,我们专门设计了一个深度压缩变分自动编码器,也就是 Video-VAE。它能把空间压缩到 16x16,时间上压缩 8 倍,还能保证视频重建的质量非常高。。
用户要是输入提示内容,我们用两个双语文本编码器来处理,不管是英语还是中文都没问题。我们还通过 Flow Matching 训练了一个带 3D 全注意力机制的 DiT 模型,它能把输入的噪声去掉,变成有用的潜在帧。另外,我们还用了基于视频的 DPO 方法,也就是视频 - DPO,这么做是为了减少视频里的瑕疵,让生成的视频看起来画质更好。
我们还整理了详细的训练策略,这里面的关键要点和一些发现也都能分享给大家。我们在新的视频生成基准 Step-Video-T2V-Eval 上测试了 Step-Video-T2V 的性能,结果表明,不管跟开源的还是商业的引擎比,它的文本转视频能力都是最牛的。要是大家想深入了解,我们会在https://github.com/stepfun-ai/Step-Video-T2V 分享 Step-Video-T2V 和 Step-Video-T2V-Eval 。
论文: https://arxiv.org/pdf/2502.10248
2. Region-Adaptive Sampling for Diffusion Transformers
扩散模型在生成任务中很受欢迎,但多次顺序前向传递影响实时性能。此前加速方法因卷积 U-Net 结构限制,无法利用图像空间区域变化。
扩散 transformer(DiTs)能灵活处理不同数量标记,基于此我们提出无需训练的 RAS 采样策略,它可根据 DiT 模型关注点,动态分配不同区域采样比例。 我们发现模型采样时聚焦语义重要区域,且这些区域连续性强。RAS 利用这一特性,只更新关注区域,其他区域用上一步噪声更新,依据上一步结果确定关注区域,利用时间一致性。
在 Stable Diffusion 3 和 Lumina-Next-T2I 上测试,RAS 最高分别提速 2.36 倍和 2.51 倍,图像质量略有下降。用户研究表明,RAS 生成质量与人评估相当,速度提升 1.6 倍。
论文: https://arxiv.org/pdf/2502.10389
3. Large Language Diffusion Models
一直以来,大家都觉得自回归模型(ARMs)是大语言模型(LLMs)的核心基础。但今天我们提出了 LLaDA,这是一种扩散模型,它不走寻常路,是从预训练和监督微调(SFT)这个全新的范式出发,完全从头开始训练的。
LLaDA 的原理其实不难理解,它通过正向的数据掩码过程,还有一个反向过程来对分布进行建模。这里面起关键作用的是一个基础 Transformer,它负责预测那些被掩码的令牌。通过不断优化似然性边界,LLaDA 提供了一种很靠谱的生成方法,能够进行概率推理。
在各种基准测试中,LLaDA 的表现相当惊艳。它展现出了强大的扩展能力,直接超越了我们自己搭建的自回归模型基线。更让人意想不到的是,LLaDA 8B 在上下文学习方面,居然能和 LLaMA3 8B 这样厉害的大型语言模型一较高下。而且在微调之后,从案例研究来看,它在指令执行能力上,比如多轮对话,表现得非常出色。还有啊,LLaDA 还解决了反转诅咒这个难题,在反转诗歌完成任务中,连 GPT-4o 都不是它的对手。
论文: https://arxiv.org/pdf/2502.09992
4. MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
最近这些年,多模态大语言模型(MLLMs)确实取得了不小的进步,好多模型的表现都挺厉害。不过呢,这里面其实有个问题,大部分先进的模型都没有好好地去和人类的偏好对齐。为啥会这样呢?现在的对齐研究,主要是在一些特定的小领域有成果,像减少模型产生幻觉这方面,确实有进展。但有个更重要的问题却一直没怎么被深入研究,那就是按照人类的偏好来调整模型,到底能不能让MLLM的能力得到系统性的提升呢?
为了解决这个问题,我们提出了MM-RLHF数据集,这里面有12万对经过人工仔细标注的偏好对比数据。和以前的那些数据集比起来,我们这个强太多了,数据量更大,涵盖的范围更广,多样性十足,质量也特别高。
有了这个数据集,我们还提出了一些新点子。一方面,我们做了个基于批评的奖励模型。以前的奖励机制就只是给个简单的分数,我们这个不一样,在打分之前,会先对模型的输出给出详细的评价和建议。这样一来,大家就能更清楚模型好在哪、不好在哪,反馈的信息也更有用。另一方面,我们还提出了动态奖励缩放方法。简单来说,就是根据奖励信号的情况,灵活调整每个样本的损失权重,这样就能把那些高质量的对比对利用得更充分。
为了验证这些方法好不好用,我们做了大量的测试。在10个不同的维度,还有27个不同的基准测试里,都对我们的方法进行了严格的评估。结果特别让人惊喜,模型的性能有了明显的提升,而且在各种测试里表现都很稳定。就拿LLaVA-ov-7B这个模型举例,用我们的MM-RLHF数据集和对齐算法对它进行微调之后,它的对话能力提高了19.5%,安全性更是提升了60%。
论文: https://arxiv.org/pdf/2502.10391
本文转载自 AI-PaperDaily,作者: AI-PaperDaily
