![](https://s5-media.51cto.com/aigc/pc/static/noavatar.gif)
港大&字节发布领先商用级图像视频生成模型Goku有点东西
文章链接:https://arxiv.org/pdf/2502.04896
项目链接:https://saiyan-world.github.io/goku/
亮点直击
- 业界领先的文本生成图像和视频能力,在多个基准测试中创下新纪录。
- 创新性地引入 Rectified Flow Transformer,提高图像-视频的联合生成质量。
- 构建大规模高质量数据集,结合 MLLM & LLM 提高文本描述质量。
- 优化计算效率与训练稳定性,支持大规模分布式训练,实现高效推理。
总结速览
解决的问题
- 现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。
- 需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。
- 现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。
- 训练大规模生成模型的计算成本高,需优化并行计算与存储机制。
提出的方案
- 提出 Goku 模型,基于Rectified Flow Transformer,实现图像和视频的联合生成。
- 构建高质量数据集(36M 视频-文本对 & 160M 图像-文本对),结合OCR 分析、审美评分等技术进行筛选。
- 采用3D 变分自编码器(VAE)建立共享隐变量空间,实现统一图像-视频表示。
- 采用全注意力机制(Full-Attention),增强图像与视频生成的一致性。
- 采用ByteCheckpoint和MegaScale进行高效并行计算与容错优化,提高大规模训练的稳定性。
应用的技术
- Rectified Flow生成框架,提高数据表示能力与生成质量。
- 3D 变分自编码器(VAE),实现图像和视频的统一表示。
- 全注意力 Transformer 架构,提升跨模态生成的一致性。
- 先进的数据筛选与标注方法(MLLM 生成描述 + LLM 纠正)。
- 高效的计算基础设施(模型并行、ByteCheckpoint、MegaScale 计算优化)。
达到的效果
- 在文本生成图像任务上,Goku 在 GenEval 评分0.76,DPG-Bench 评分83.65,均为 SOTA 级别。
- 在文本生成视频任务上,Goku 在 VBench 评分84.85,超越领先商用模型。
- 在 UCF-101 零样本生成任务上取得 SOTA 结果,显示强大的泛化能力。
- 生成样本的视觉质量和文本对齐性均优于现有模型,可应用于商业与学术研究。
Goku: 用于视觉创作的生成流模型
本节介绍 Goku 的三个核心组件:图像-视频联合 VAE、Goku Transformer 架构以及修正流(rectified flow)公式。这些组件协同工作,构成一个统一且可扩展的图像-视频联合生成框架。
在训练过程中,每个原始视频输入 (其中图像是 的特例)首先通过3D 图像-视频联合 VAE从像素空间编码到隐空间。随后,编码后的隐变量被组织成包含视频和图像表示的 mini-batch,以学习统一的跨模态表示。在这些隐变量上应用修正流(rectified flow),并利用一系列 Transformer 块 有效建模复杂的时空依赖关系。
图像-视频联合 VAE
先前研究表明,diffusion和flow-based的模型可以通过在隐空间中建模(采用变分自编码器 VAE)显著提高效率和生成质量。
受 Sora启发,开源社区引入了 3D-VAE 以探索视频生成任务中的时空压缩。为将隐空间建模的优势扩展到多种媒体格式(包括图像和视频),本文采用了一个联合训练的图像-视频 VAE,它在统一框架下处理图像和视频数据。
- 视频采用的压缩步长,分别作用于高度、宽度和时间维度。
- 图像采用的空间压缩步长。
Transformer 结构
Goku Transformer 块的设计基于 GenTron,这是类别条件扩散 Transformer的扩展,专用于文本到图像/视频任务。
关键组成部分
- 自注意力模块(Self-Attention):捕捉 token 之间的相关性。
- 交叉注意力层(Cross-Attention):融合文本条件嵌入(使用 Flan-T5 语言模型提取。
- 前馈网络(FFN):用于特征投影。
- 层级 adaLN-Zero 块:整合时间步信息,引导特征变换。
Plain Full Attention(纯全注意力机制)
在基于 Transformer 的视频生成模型中,先前的方法通常结合时间注意力(temporal attention)和空间注意力(spatial attention),以扩展文本到图像的生成能力至视频任务。研究表明这种方法在建模复杂时序运动方面表现不佳。
在 Goku 中,采用 全注意力机制(Full Attention),在统一的网络中建模多模态 token(图像和视频)。
经过 VAE 处理后的视频仍包含大量 token(尤其是在高帧率、长时长视频的情况下),使用:
- FlashAttention以优化 GPU 内存使用和计算效率。
- 序列并行以提高计算性能。
Patch n’ Pack 机制
为了实现对不同长宽比和时长的视频和图像的联合训练,采用 NaViT的方法:
- 在序列维度上同时打包(packing)图像和视频,使不同长度的训练实例能灵活混合。
- 消除了数据桶(data buckets)的需求,简化训练流程。
3D RoPE 位置编码
在大语言模型(LLM)中已被验证能够:
- 增强长序列处理能力
- 减少远距离 token 之间的相互依赖性
在 Goku 训练框架中,将 3D RoPE 位置编码扩展至图像和视频 token:
- 支持不同分辨率的视频和图像,适应性强。
- 相比正弦位置编码(sinusoidal positional embedding)收敛更快,在不同训练阶段切换时表现更稳定。
Q-K 归一化(Query-Key Normalization)
在大规模 Transformer 训练时,可能会出现损失爆炸(loss spikes),导致模型损坏,最终生成的图像/视频可能出现严重的伪影甚至纯噪声。
- 在计算注意力权重前,对每个 Query-Key 特征应用RMSNorm。
- 确保训练过程更加平稳可靠,降低损失波动的风险。
Goku Transformer 由上述多个 Transformer 块堆叠而成。为了适应不同的计算需求和性能要求,设计了三种模型变体,如下表所示:
Goku 通过联合 VAE、全注意力 Transformer 和修正流,构建了一个统一且高效的图像-视频生成框架,并针对跨模态一致性、计算效率和训练稳定性进行了深度优化。
Flow-based训练
为了评估性能,比较了使用去噪扩散概率模型(DDPM)和修正流训练的模型的关键指标,例如 FID-50K 和 Inception Score(IS)。如下表 2 所示,RF 表现出比 DDPM 更快的收敛速度。例如,Goku-1B(RF)在 40 万训练步数后达到了较低的 FID-50K,而 Goku-1B(DDPM)需要 100 万步才能达到类似的性能水平。
训练细节
多阶段训练
直接优化联合图像和视频训练提出了重大挑战,因为网络必须同时学习对图像至关重要的空间语义和对视频必不可少的时间运动动态。为了解决这一复杂性,我们引入了一种分解的多阶段训练策略,逐步增强模型的能力,确保在两种模态上进行有效且稳健的学习。
- 阶段 1:文本-语义配对
在初始阶段,我们专注于通过文本到图像任务对 Goku 进行预训练,以建立对文本到图像关系的扎实理解。这一步骤对于模型在基本语义理解中扎根至关重要,使其能够学习将文本提示与高级视觉语义关联起来。通过这一过程,模型发展出表示视觉概念的可靠能力,这些概念对图像和视频生成都至关重要,例如对象属性、空间配置和上下文一致性。 - 阶段 2:图像和视频联合学习
在文本-语义配对的基础能力之上,将 Goku 扩展到图像和视频数据的联合学习。这一阶段利用了 Goku 的统一框架,该框架采用了适用于图像和视频的全局注意力机制。此外,与获取类似数量的高质量图像数据相比,获取大量高质量视频数据通常需要更多的资源。为了解决这种差异,本文的框架在训练期间将图像和视频整合到统一的标记序列中,使高质量图像中固有的丰富信息能够增强视频帧的生成。通过精心策划的图像和视频数据集,Goku 不仅获得了生成高质量图像和视频的能力,还通过利用高质量图像数据中的丰富信息提升了视频的视觉质量。 - 阶段 3:模态特定微调
最后,对 Goku 进行每种特定模态的微调,以进一步提高其输出质量。对于文本到图像生成,我们实施了以图像为中心的调整,旨在生成更具视觉吸引力的图像。对于文本到视频生成,我们专注于改善时间平滑度、运动连续性和帧间稳定性的调整,从而生成逼真且流畅的视频输出。
级联分辨率训练
在联合训练的第二阶段,采用级联分辨率策略来优化学习过程。最初,训练在低分辨率图像和视频数据(288 × 512)上进行,使模型能够以较低的计算成本高效地专注于基本的文本-语义-运动关系。一旦这些核心交互关系得到充分建立,训练数据的分辨率逐步提高,从 480 × 864 过渡到 720 × 1280。这种逐步提高分辨率的方式使 Goku 能够细化对复杂细节的理解并提高整体图像保真度,最终为图像和视频生成带来卓越的质量。
图像到视频
为了扩展 Goku 以适应图像作为视频生成的附加条件,采用了一种广泛使用的策略,即使用每个视频片段的第一帧作为参考图像。相应的图像标记被广播并与配对的噪声视频标记沿通道维度连接。为了在微调期间充分利用预训练知识,引入了一个单层 MLP 用于通道对齐,同时保持模型架构的其余部分与 Goku-T2V 相同。
基础设施优化
为了实现 Goku 的可扩展和高效训练,首先采用了先进的并行策略,以应对长上下文、大规模模型的挑战。为了进一步优化内存使用并平衡计算与通信,我们实现了细粒度的激活检查点。此外,集成了来自 MegaScale 的鲁棒容错机制,支持自动故障检测和恢复,同时最小化中断。最后,利用 ByteCheckpoint 确保训练状态的高效和可扩展的保存与加载,支持跨多种硬件配置的灵活性。
模型并行策略
由于模型规模庞大且序列长度极长(最长序列超过 220K 标记),我们采用了多种并行策略以确保高效训练。采用 3D 并行 在三个轴上实现可扩展性:输入序列、数据和模型参数。
- 序列并行(SP)在序列维度上对输入进行切片,用于独立层(例如 LayerNorm),以消除冗余计算、减少内存使用,并支持对非合规输入的填充。采用Ulysses作为实现,它从训练循环的开始将样本在序列并行组中进行分片。在注意力计算期间,它使用all-to-all 通信分发查询、键和值分片,使每个工作节点能够处理完整序列但仅处理一部分注意力头。在并行计算注意力头后,另一次 all-to-all 通信聚合结果,重新组合所有头和分片的序列维度。
- 全分片数据并行(FSDP)(在所有数据并行节点上划分所有参数、梯度和优化器状态。与分布式数据并行中的 all-reduce 不同,FSDP 对参数执行 all-gather,对梯度执行 reduce-scatter,从而与前向和反向计算重叠,隐地减少通信开销。在我们的实现中,我们采用了HYBRID_SHARD策略,该策略在分片组内结合FULL_SHARD,并在这些组之间复制参数,从而有效实现数据并行(DP)。这种方法通过限制 all-gather 和 reduce-scatter 操作来最小化通信成本。
激活检查点
虽然并行方法显著节省了内存并支持长序列的大规模训练,但它们不可避免地引入了节点间的通信开销,这可能导致整体性能不佳。为了解决这一问题并通过最大化计算和通信的重叠来更好地平衡它们,本文设计了一种细粒度的激活检查点(AC) 策略。实现了选择性激活检查点,以最小化需要存储激活的层数,同时最大化 GPU 利用率。
集群容错
将 Goku 的训练扩展到大规模 GPU 集群不可避免地会引入故障场景,这可能会降低训练效率。随着节点数量的增加,遇到故障的可能性也会增加,因为更大的系统中至少有一个节点发生故障的概率更高。这些中断可能会延长训练时间并增加成本。为了提高大规模训练的稳定性和效率,本文采用了 MegaScale 的容错技术,包括自检诊断、多级监控和快速重启/恢复机制。这些策略有效减轻了中断的影响,使 Goku 能够在大规模生成建模任务中保持稳健的性能。
训练状态的保存与加载
保存训练状态(如模型参数、指数移动平均(EMA)参数、优化器状态和随机状态)对于训练大规模模型至关重要,尤其是在集群故障可能性增加的情况下。重新加载保存的状态确保了可重复性,这对于模型可靠性和调试隐问题(包括由无意错误或恶意攻击引起的问题)至关重要。
为了支持可扩展的大规模训练,本文采用 ByteCheckpoint 作为检查点解决方案。它不仅能够以高 I/O 效率并行保存和加载分片检查点,还支持重新分片分布式检查点。这种灵活性允许在不同训练规模之间无缝切换,适应不同数量的节点和多样化的存储后端。在我们的设置中,在数千个 GPU 上保存一个 8B 模型的检查点会阻塞训练不到 4 秒,与每次迭代的整体前向和反向计算时间相比可以忽略不计。
数据整理流程
本文解锁了用于工业级视频/图像生成模型的数据量。数据整理流程如下图 2 所示,包括五个主要阶段:(1) 图像和视频收集,(2) 视频提取和剪辑,(3) 图像和视频过滤,(4) 标注,以及 (5) 数据分布平衡。
数据概览
研究者们从各种来源收集原始图像和视频数据,包括公开的学术数据集、互联网资源以及通过与合作组织合作获得的专有数据集。经过严格过滤后,Goku 的最终训练数据集包括约 1.6 亿个图像-文本对和 3600 万个视频-文本对,涵盖公开数据集和内部整理的专有数据集。
- 文本到图像数据
文本到图像训练数据集包括来自LAION的 1 亿个公开样本和 6000 万个高质量内部样本。我们使用公开数据进行预训练,并使用内部数据进行微调。 - 文本到视频数据
T2V 训练数据集包括 1100 万个公开视频片段和 2500 万个内部视频片段。前者包括Panda-70M、InternVid、OpenVid-1M和Pexels。并未直接使用这些数据集,而是通过数据整理流程筛选出高质量样本。
数据处理与过滤
为了构建高质量的视频数据集,实施了一个全面的处理流程,包括以下几个关键阶段。首先对原始视频进行预处理和标准化,以解决编码格式、时长和帧率的不一致问题。接下来,采用两阶段的视频剪辑方法将视频分割为有意义且多样化的片段,并保持一致的时长。此外,还应用了多种过滤流程,包括视觉美学过滤以保留逼真且视觉丰富的片段、OCR 过滤以排除包含过多文本的视频,以及运动过滤以确保平衡的运动动态。此外,基于分辨率和相应的过滤阈值(如 DINO 相似度、美学评分、OCR 文本覆盖率和运动评分)对多级训练数据进行分段,见下表 4。
下表 3 列出了用于视频质量评估的关键参数及其对应的阈值。每个参数对于确保生成和评估高质量视频至关重要。时长参数规定原始视频长度应至少为 4 秒,以捕捉有意义的时间动态。分辨率标准确保视频的最小维度(高度或宽度)不低于 480 像素,以保持足够的视觉清晰度。比特率决定了播放期间每秒处理的数据量,要求至少为 500 kbps,以确保足够的质量、清晰度和可控的文件大小。低比特率的视频通常对应于低复杂度的内容,例如静态视频或纯色背景的视频。最后,帧率强制执行至少 24 帧/秒(电影标准)或 23.976 帧/秒(NTSC 标准)的标准,以保证流畅的运动并防止视觉伪影。这些阈值共同为评估和生成高质量视频内容建立了基线。
- 原始视频的预处理和标准化
从互联网收集的视频通常需要大量预处理,以解决编码格式、时长和帧率的差异。首先,我们基于视频的基本属性(如时长、分辨率、比特率)进行初步过滤。具体的过滤标准和相应阈值详见上表 3。与基于模型的更高级过滤方法(如美学评估模型)相比,这一初步过滤步骤在计算上更为高效。在此阶段之后,原始视频被标准化为一致的编码格式H.264(Wiegand 等,2003),确保数据集的统一性并促进后续处理阶段。 - 视频片段提取
此阶段采用两阶段的视频剪辑方法。首先,使用PySceneDetect进行镜头边界检测,从原始视频中生成粗粒度的视频片段。接下来,通过每秒采样一帧,生成DINOv2特征并计算相邻帧之间的余弦相似度,进一步细化视频片段。当相似度低于设定阈值时,我们标记镜头变化并进一步分割片段。具体来说,如下表 4 所示,对于分辨率约为 480 × 864 的视频,当相邻帧之间的 DINO 相似度超过 0.85 时进行分段。对于分辨率大于 720 × 1280 的视频,阈值设置为 0.9。此外,为了标准化长度,我们将片段限制为最长 10 秒。同时,我们考虑来自同一源视频的不同片段之间的相似性,以确保多样性并保持质量。具体来说,我们计算每个片段关键帧的感知哈希值并进行比较。如果两个片段的哈希值相似,表明存在显著重叠,则保留美学评分较高的片段。这确保了最终数据集包含多样化和高质量的视频片段。
- 视觉美学过滤
为了评估视频的视觉质量,利用美学模型对关键帧进行评估。关键帧的美学评分取平均值以获得每个视频的整体美学评分。对于分辨率约为 480 × 864 的视频,美学评分低于 4.3 的视频将被丢弃;而对于分辨率超过 720 × 1280 的视频,阈值提高到 4.5。这一过滤过程确保所选片段具有逼真性、视觉丰富性和高美学质量。
OCR 过滤
为了排除包含过多文本的视频,本文采用内部 OCR 模型检测关键帧中的文本。OCR 模型识别文本区域,并通过将检测到的最大边界框面积除以关键帧的总面积来计算文本覆盖率。文本覆盖率超过预定义阈值的视频将被丢弃。具体来说,对于分辨率约为 480 × 864 的视频,阈值设置为 0.02;而对于分辨率超过 720 × 1280 的视频,阈值降低至 0.01。这一过程有效过滤了包含过多文本内容的视频。
运动过滤
与图像不同,视频需要基于运动特性进行额外过滤。为此,利用 RAFT计算视频片段的平均光流,进而得出运动评分。对于分辨率约为 480 × 864 的视频,运动评分低于 0.3(表示低运动)或高于 20.0(表示过度运动)的片段将被排除。对于分辨率超过 720 × 1280 的视频,阈值分别调整为 0.5 和 15.0。此外,为了增强运动控制,运动评分被附加到每个字幕中。
字幕生成
详细的字幕对于使模型能够精确生成与文本对齐的图像/视频至关重要。对于图像,我们使用 InternVL2.0为每个样本生成密集字幕。对于视频片段,我们首先使用 InternVL2.0 生成关键帧字幕,然后使用 Tarsier2生成视频整体字幕。需要注意的是,Tarsier2 模型能够自然地描述视频中的相机运动类型(例如放大、向右平移),从而无需单独的预测模型,简化了整体流程,与之前的工作(如 Polyak 等,2024)相比更为高效。利用 Qwen2合并关键帧和视频字幕。此外,还通过实验发现,将运动评分(由 RAFT计算得出)添加到字幕中可以改善视频生成的运动控制。这种方法使用户能够在提示中指定不同的运动评分,从而指导模型生成具有不同运动动态的视频。
训练数据平衡
模型的性能显著受数据分布的影响,尤其是视频数据。为了平衡视频训练数据,我们首先使用内部视频分类模型为视频生成语义标签。然后,基于这些语义标签调整数据分布,以确保各类别的均衡表示。
- 数据语义分布
视频分类模型基于四个均匀采样的关键帧为每个视频分配语义标签。模型将视频分为 9 个主要类别(例如人类、风景、动物、食物)和 86 个子类别(例如半自拍、儿童、晚餐、婚礼)。下图 3a 展示了我们过滤后的训练片段的语义分布,其中人类、风景、食物、城市生活和动物是主要类别。
- 数据平衡
生成视频的质量与训练数据的语义分布密切相关。由于外观的广泛多样性,涉及人类的视频在建模上更具挑战性,而动物和风景则表现出更高的视觉一致性,相对更容易建模。为了解决这种差异,我们实施了一种数据平衡策略,强调与人类相关的内容,同时确保每个主要类别中子类别的均衡表示。对过度代表的子类别进行选择性下采样,而对不足代表的子类别则通过人工数据生成和过采样技术进行增强。平衡后的数据分布如图 3b 所示。
实验
文本到图像结果
在广泛认可的图像生成基准上对 Goku-T2I 进行了全面的定量评估,包括 GenEval、T2I-CompBench和 DPG-Bench。结果总结在下表 5 中。
- GenEval 上的表现
为了全面评估文本-图像对齐能力,使用GenEval基准,该基准评估文本描述与视觉内容之间的对应关系。由于Goku-T2I主要在密集生成字幕上进行训练,因此在处理详细提示时具有天然优势。为了进一步探索这一点,我们使用ChatGPT-4o扩展了 GenEval 中的原始简短提示,在保留语义的同时增强了描述的细节。Goku-T2I在使用原始简短提示时表现出色,超越了大多数最先进的模型。在使用改写后的提示时,Goku-T2I达到了最高分(0.76),展示了其在将详细文本描述与生成图像对齐方面的卓越能力。 - T2I-CompBench 上的表现
进一步使用T2I-CompBench基准评估生成图像与文本条件之间的对齐能力,该基准专注于颜色、形状和纹理等各种对象属性。如表 5 所示,Goku-T2I在多个强基线模型(包括PixArt-𝛼(Chen 等,2023)、SDXL(Podell 等,2023)和DALL-E 2(Mishkin 等,2022))中表现优异。值得注意的是,提示改写的引入进一步提高了所有属性的性能,凸显了Goku-T2I在文本-图像对齐方面的鲁棒性。 - DPG-Bench 上的表现
虽然上述基准主要评估使用简短提示的文本-图像对齐能力,但DPG-Bench旨在测试模型在密集提示跟随上的表现。这一具有挑战性的基准包含 1000 个详细提示,严格测试模型为复杂文本输入生成视觉准确输出的能力。如表 5 最后一列所示,Goku-T2I以 83.65 的平均分取得了最高性能,超越了PixArt-𝛼(Chen 等,2023)(71.11)、DALL-E 3(83.50)和EMU3(Wang 等,2024b)(80.60)。这些结果突显了Goku-T2I在处理密集提示和保持高保真文本-图像对齐方面的卓越能力。
文本到视频结果
- UCF-101 上的表现
在UCF-101上使用零样本文本到视频设置进行实验。由于 UCF-101 仅包含类别标签,我们利用视频-语言模型Tarsier-34B为所有 UCF-101 视频生成详细字幕。然后使用这些字幕通过Goku合成视频。最后,我们使用Goku-2B模型生成了 13,320 个不同分辨率的视频进行评估,包括 256×256、240×360 和 128×128。遵循标准实践,使用在Kinetics-400上预训练的I3D模型作为特征提取器。基于提取的特征,我们计算了Fréchet 视频距离(FVD)(Unterthiner 等,2018)以评估生成视频的保真度。下表 6 中的结果表明,Goku生成的视频始终具有更低的 FVD 和更高的Inception Score(IS)。例如,在 128×128 分辨率下,Goku生成的视频的 FVD 为 217.24,达到了最先进的性能,并显著优于其他方法。
VBench 上的表现。如下表 7 所示,在 VBench上对 Goku-T2V 进行了评估。VBench 是一个综合基准,旨在从 16 个维度评估视频生成质量。Goku-T2V 在 VBench 上实现了最先进的整体性能,展现了其在不同属性和场景下生成高质量视频的能力。
在关键指标方面,Goku-T2V 在人体动作表示、动态程度和多物体生成方面表现突出,反映了其处理复杂多样视频内容的能力。此外,它在外观风格、质量评分和语义对齐方面取得了具有竞争力的结果,突出了其在多个方面的均衡性能。
关于所有 16 个评估维度的详细结果,见下表 8。这一全面分析进一步证明了 Goku-T2V 在视频生成方面相较于以往方法的优越性。
图像到视频
从 T2V 初始化对 Goku-I2V 进行微调,使用了约 450 万个文本-图像-视频三元组,这些数据来源于多个领域,以确保强大的泛化能力。尽管微调步骤相对较少(10k),但我们的模型在动画化参考图像的同时,仍然能够高效地保持与伴随文本的高度对齐。正如下图 4 所示,生成的视频具有较高的视觉质量和时间连贯性,能够有效捕捉文本描述的语义细节。
图像与视频的定性可视化
为了进行直观比较,本文进行了定性评估,并下在图 6 中展示了采样结果。评估涵盖了开源模型(如 CogVideoX和 Open-Sora-Plan)以及闭源商业产品(如 DreamMachine、Pika、Vidu)和 Kling)。
结果表明,在处理复杂提示词时,一些商业模型难以生成关键视频元素。例如,Pika、DreamMachine 和 Vidu(第 3–5 行)未能渲染出掠过水面的无人机。虽然某些模型成功生成了目标无人机,但它们往往会产生变形的主体(第 1–2 行)或缺乏运动一致性的静态帧(第 6 行)。相比之下,Goku-T2V(8B)在准确融合提示词的所有细节方面表现出色,生成了具有流畅运动的连贯视觉输出。附录中提供了更多比较,以进行更全面的评估。此外,更多视频示例可在 Goku 主页上查看。
消融实验
模型扩展(Model Scaling)。 本文比较了参数规模为 2B 和 8B 的 Goku-T2V 模型。如下图 5a 所示,模型扩展有助于减少失真对象结构的生成,例如图 5a(第 1 行)中的手臂和图 5a(第 2 行)中的轮子。这与在大型多模态模型中观察到的结果一致。
联合训练(Joint Training)。 进一步研究了图像-视频联合训练的影响。以相同的预训练 Goku-T2I(8B)权重为起点,在 480p 视频上对 Goku-T2V(8B)进行微调,训练步数相同,但分别进行了联合训练和非联合训练。如图 5b 所示,未经过联合训练的 Goku-T2V 生成的视频帧质量较低,而采用联合训练的模型更稳定地生成了逼真的视频帧。
结论
Goku,一个用于联合图像与视频生成的新模型,旨在实现行业标准的性能。通过先进的数据筛选流程和稳健的模型架构,Goku 确保精细化数据选择与图像-视频模态的有效融合,从而生成高质量的输出。
关键组件(如图像-视频联合 VAE 及修正流的应用)促进了跨模态的无缝 token 交互,建立了一个共享的隐空间,从而增强了模型的适应性及 token 之间的注意力机制。实证结果表明,Goku 在商用级视觉生成质量方面表现出色。
本文转自AI生成未来 ,作者:AI生成未来
![](https://s5-media.51cto.com/aigc/pc/static/noavatar.gif)