比Janus更强!15M数据实现颠覆性统一多模态大模型!华为诺亚提出ILLUME
文章链接:https://arxiv.org/pdf/2412.06673
亮点分析
- 本文提出了ILLUME,这是一种统一的多模态大语言模型(MLLM),能够在单一的大语言模型(LLM)中无缝整合视觉理解与生成功能,并通过语义视觉分词器和三阶段训练流程实现高效训练。
- 为了促进理解与生成能力的协同增强,本文提出了一种新颖的自增强多模态对齐机制,该机制训练 MLLM 自行评估文本描述与自生成图像之间的一致性。
- ILLUME 在现有的统一多模态大语言模型中表现出色,并在多模态理解、生成和编辑的多种基准测试中展现出与专业模型相当的竞争力。
与SOTA的比较
各种视觉理解(蓝色表示通用,绿色表示面向文档)、生成(红色)和编辑(灰色)基准的性能。ILLUME凭借最先进的工作取得了有竞争力的成果:
总结速览
解决的问题
- 多模态统一建模挑战:如何在单一的大语言模型中无缝融合多模态理解和生成能力。
- 数据效率问题:减少图文对齐所需的大规模数据集,降低训练成本。
- 多模态协同增强不足:现有模型在多模态理解和生成能力的协同提升方面探索有限。
提出的方案
- 统一的预测框架:通过统一的“下一个 token 预测”公式,实现多模态理解与生成的整合。
- 视觉分词器设计:采用嵌入语义信息的视觉分词器,提升图文对齐效率。
- 渐进式多阶段训练:设计渐进式多阶段训练流程,将预训练所需的数据量减少至 1500 万,比传统需求减少四倍以上。
- 自增强多模态对齐机制:提出一种新颖的机制,模型通过自评一致性来提升图文对齐效果,避免图像生成中的不真实与不准确。
应用的技术
- 视觉分词器:结合语义信息,优化图像表征质量。
- 渐进式多阶段训练:通过分阶段优化提升数据利用率。
- 自增强对齐机制:让模型通过自监督评估生成图像与文本描述的一致性,强化理解与生成的双向能力。
达到的效果
- 数据效率提升:使用仅 1500 万数据完成预训练,效率显著高于同类模型。
- 性能优势:在多模态理解、生成和编辑的多项基准测试中,与当前最先进的统一多模态模型和专业化模型竞争,表现出色甚至更优。
- 协同增强:通过对理解和生成能力的协同提升,实现多模态任务的全面优化。
ILLUME
本节介绍 ILLUME 框架,这是一种用于视觉理解与生成的统一模型。具体而言,讨论视觉分词器、MLLM 以及训练流程的设计细节。
视觉分词器
为了在 LLM 中处理输入图像,之前的视觉语言模型(VLM)如 LLaVA 利用视觉适配器将视觉编码器的语义特征映射到文本空间,从而在仅使用 558K 数据样本进行预训练时实现了高效的图文对齐。然而,在图像生成领域,大多数现有基于自回归的统一模型面临着 LLM 预训练所需的大规模数据问题(如下表 1 所示)。
假设这一问题的根源在于现有视觉分词器(如 VQGAN)提供的语义信息不足。这些分词器主要基于图像重建损失进行训练,其视觉表示专注于量化的低级纹理特征,从而阻碍了 MLLM 的图文对齐。
为此,将图像量化为语义特征空间中的离散token。具体而言,如下图 3(b) 所示,采用预训练的视觉编码器 UNIT 提取语义特征,并通过特征重建损失监督量化过程及码本学习。相比基于图像重建损失的分词器,这种方法显著加速了图文对齐过程(如下图 6 所示)。
此外,由于量化发生在语义特征空间中,进一步利用 Stable Diffusion (SD) 模型将这些语义特征重建回具有高压缩比(32×)的图像。鲁棒的 SD 模型有效补偿了量化过程中未保留的低级细节,从而能够从 MLLM 输出的固定数量离散token生成更高分辨率的图像。
MLLM
架构如上图 3 所示,ILLUME 继承了现有视觉语言模型(VLM)的架构,通过扩展 LLM 并添加视觉词汇表来生成离散视觉token。在视觉理解方面,我们利用 UNIT 编码器(也用于我们提出的视觉分词器)从输入图像中提取语义特征,并通过视觉适配器将这些特征对齐到 LLM 的输入空间。该设计缓解了矢量量化导致的信息丢失,这对于处理细粒度多模态理解任务至关重要。
在视觉生成方面,使用视觉分词器将图像转换为离散索引,并在 LLM 的共享预测头中,对两种模态的每个位置的token预测进行监督。通过这种架构,ILLUME 采用通用的语言建模(LM)目标,以自回归方式直接最大化每个多模态序列的似然。
其中, 表示文本或视觉token, 表示 LLM 的参数。值得注意的是,由于我们的模型能够同时处理输入和输出中的图像,所提出的框架兼容交错的图文数据,从而支持任意多模态任务。
训练过程MLLM 的训练过程和数据组成如下图 4 所示。训练过程分为以下三个阶段:
- 阶段 1:视觉嵌入初始化该阶段的主要目标是为后续训练步骤初始化良好的视觉表示。视觉适配器通过利用 LLaVA-Pretrain 的图文对进行训练,将视觉编码器的视觉特征转换为 LLM 的文本空间。同时,该阶段还涉及新可学习嵌入的学习,仅更新视觉嵌入和 LLM 最终分类头中的视觉部分。此外,我们引入了图像重建任务,即监督 LLM 生成原始图像,以便快速初始化 LLM 中的新增集成权重。
- 阶段 2:统一图文对齐本阶段重点在多模态数据上进行图文对齐,以学习理解和生成任务。解冻 LLM 和视觉适配器,利用 1500 万训练数据进行训练,包括文本数据、自然图像和文档的图像标题数据、用于重建的图像数据以及文本到图像生成数据。
- 阶段 3:监督微调在预训练之后,使用特定任务数据对整个模型进行训练,以处理各种多模态理解和生成任务。为了获得高分辨率图像以应对如 OCR 和面向文档任务等细粒度的多模态理解,采用 LLaVA-NeXT的图像切片策略。本阶段利用 中的指令调优数据进行视觉理解、高质量图文对进行文本到图像生成,以及各种混合模态生成数据。
推理在推理过程中,我们的模型采用下一个token预测的方法。对于视觉理解,遵循标准方法,从预测分布中逐步采样token。对于图像生成,采用无分类器引导(CFG),与先前工作[26, 54]一致。
自增强多模态对齐
开发统一的多模态大语言模型(MLLM)的主要目标有两个:
- 能够轻松扩展到各种视觉-语言任务;
- 表示空间的完全统一能通过更高效的多模态交互和对齐促进学习过程的效率提升。
因此,在构建 ILLUME 后,我们的首要任务是研究联合改进这些能力是否能从每项任务所需知识的共性中获益。然而,根据实验结果(如下表 2 所示),尽管联合训练未对性能产生显著负面影响,但现有基准测试并未表现出预期的理解与生成能力的互相增强。这表明,这些能力虽然可以共存而不互相影响,但要实现协同潜力可能需要进一步探索和更精细的方法。
为此,本文提出了一种新颖的自增强多模态对齐方案,如下图 5 所示,该方案通过自评估过程作为桥梁协同增强判别和生成能力。如果 MLLM 能在训练中学习评估其自生成图像的质量,它将从以下两个方面获益:
- 生成促进判别:通过分析自生成的负样本,MLLM 学会识别并理解自身的失败,从而提高对图像的准确解读能力。此反思过程使模型能够通过自我评估定位并改进其弱点,最终提升理解能力并减少误判。
- 判别促进生成:MLLM 可以利用其判别能力评估自生成图像是否与文本对齐,并基于此分析进行必要的调整。这种能力确保模型在推理过程中更加谨慎和精确,避免生成图像中的潜在错误。
受到上述动机的启发,设计了以下三步的自增强多模态对齐方案:
- 步骤 1:语料自生成模型从训练集中一部分文本到图像数据自生成图像。
- 步骤 2:生成评估根据特定标准(如对象准确性、数量、颜色、空间关系)评估图像和文本之间的不一致性。在生成过程中,不仅包括评估分数(如好或坏),还包括对应的分析。为了获得高质量数据,我们采用 GPT4-o 生成评估数据,评估模板如上图 5(b) 所示。
- 步骤 3:用于多模态对齐的监督微调(SFT)将评估数据重新格式化,如图 5(c) 所示。具体来说,对于被token为“良好生成案例”的实例,仅进行第一轮评估。而对于“错误生成案例”,数据将被重新构建为两轮对话,其中第一轮进行评估,第二轮进行改进。通过此方案,共生成 50K 条评估数据,并将其纳入训练过程的阶段 3。
实验
在多种多模态理解与生成基准上评估了所提出的 ILLUME,并进行了消融实验以验证设计选择的合理性。
实现细节
在实验中,选择Vicuna-7B 作为基础语言模型。理解任务中使用的视觉编码器为UNIT。以下是模型的具体设置:
- 输入图像分辨率:
- 阶段 1 和阶段 2 设置为224。
- 每张图像为 LLM 生成256 个离散 tokens。
- 阶段 3 采用image patchfy策略,以支持高分辨率图像输入,用于细粒度理解任务。最大切片数为9,基础分辨率为448,每个切片的图像下采样为256 个 token。
- 图像生成:
- 视觉分词器的codebook大小为16384。
- 生成图像的分辨率为512 × 512,对应256 个离散 tokens。
- 训练配置:
- 训练超参数如下表 5 所示。
- 整个训练过程耗时3 天,在包含32 个节点的集群上进行,每个节点配备8 个 Ascend NPU。
评估设置
多模态理解
为了评估多模态理解能力,在两类广泛使用的基准上进行测试:
- 通用基准:包括 POPE、MMBench、SEED、MME-P、MM-Vet、MMMU 和 AI2D。
- 文档相关基准:包括 VQA-text、ChartQA、DocVQA、InfoVQA 和 OCRBench。
多模态图像生成
为评估 ILLUME 的多模态视觉生成能力,采用了以下基准:
- MJHQ-30K:基于 Fréchet Inception Distance (FID) 指标,在 30K 生成图像和 30K 高质量真实图像之间进行比较,衡量生成质量与多样性。
- GenAI-bench 和 GenEval:具有挑战性的文本到图像生成基准,用于反映综合生成能力。
多模态图像编辑
为了评估 ILLUME 的多模态图像编辑能力,使用了 Emu Edit基准,并报告以下指标:
- CLIP-I 和 DINO 分数:衡量模型保留源图像元素的能力。
- CLIP-T 分数:衡量输出图像与目标文本描述之间的一致性。
与最新技术的对比
多模态理解
我们在多种多模态理解基准上的性能与以往最先进的理解模型(如 InstructBLIP、Qwen-VL-Chat、LLaVA-1.5、ShareGPT4V、LLaVA-NeXT 和 Emu3-Chat)以及统一模型(如 Unified-IO 2、Chameleon、LWM、Show-o、VILA-U 和 Janus)进行比较(下表 3)。
- ILLUME 在 12 个基准中的 10 个上获得了第一或第二名。
- 在 MMMU 和 SEED 基准上,ILLUME 分别比上一代最佳统一多模态模型 Janus 提高了 **25% 和 14%**。
- 相较于 Emu3,ILLUME 在文档相关基准上表现相当,但在几乎所有通用基准上表现更佳,表明其在多模态理解任务上的显著优势。
多模态图像生成
在 MJHQ-30K、GenAI-bench 和 GenEval 基准上评估了 ILLUME 的生成能力(下表 4)。
- 在MJHQ30K 基准上,ILLUME 的 FID 分数为7.76,优于 Show-o 和 Janus 等高性能统一模型,表明其生成质量和多样性更强。
- 在GenAI-bench 基准上,ILLUME 的性能与基线方法相当。
- 在GenEval 基准上,ILLUME 的整体准确率达到0.61,超越了之前的生成专用和统一模型,表现出卓越的综合生成能力。
多模态图像编辑
在 Emu Edit 基准上,将 ILLUME 与以下图像编辑模型对比:InstructPix2Pix、MagicBrush、Omni-Gen、Emu Edit 和 PUMA(下表 6)。
- 尽管 ILLUME 是一个统一模型,但其在图像编辑任务中的表现与专用编辑模型相当,表明该框架的有效性。
消融研究
视觉分词器的设计选择
为了研究语义信息是否在设计有效的视觉分词器中起着关键作用,在两种不同的监督下进行了视觉分词器的比较分析:
- 重建分词器:使用了 VQGAN 实现,并通过图像重建损失进行监督。
- 语义分词器:量化过程通过重建由 UNIT 提取的语义特征来进行监督。
在相同的设置下,使用这两种token器训练了 MLLM 模型,数据集为 2000 万条文本到图像的生成数据。正如下图 6(左)所示,训练损失曲线表明,具有语义信息的视觉分词器显著加速了 MLLM 训练的收敛。为了进行图像重建和细节补偿,在我们的视觉分词器中采用了扩散模型。为了确保公平比较,我们将 VQGAN 中的原始解码器替换为扩散模型,以在 512 × 512 分辨率下重建图像。图 6(右)表明,在仅使用 2000 万生成数据的情况下,重建token器的性能不尽人意,而语义token器则取得了可喜的成绩。我们的研究结果证实,语义信息确实是适合 MLLMs 的视觉分词器的关键因素。
自增强多模态对齐方案的有效性
研究者们进行了一项消融分析,以验证本文方法的有效性。基准方法在 Stage-3 训练中采样了 130 万个数据点,以提高效率,而我们的方法还整合了由我们方案生成的评估数据。如下表 7 所示,尽管仅增加了 5 万个数据点,在理解和生成基准测试中的性能都得到了提升。这一提升表明,教会 MLLM 自我评估不仅能使模型更准确地理解图像,还能帮助防止图像生成中的潜在错误。希望这一发现能激发更多关于判别能力和生成能力之间协同作用与泛化潜力的深入探索。
结论
ILLUME,一个统一的 MLLM(多模态大语言模型),该模型经过高效预训练,并通过一种新颖的自增强多模态对齐方案进一步改进,表现出与现有统一 MLLM 在多个多模态基准上的竞争性,甚至更优的性能。展望未来,计划在几个关键领域进一步发展 ILLUME:
- 扩展能力:旨在扩展其能力,支持更多模态,如视频、音频和 3D 数据,以便在各个领域中实现更广泛的应用。
- 设计更通用的视觉分词器:计划设计一种更加多功能的视觉分词器,能够支持图像和视频。此外,在本研究中的发现表明,将语义信息融入传统设计良好的视觉分词器具有巨大的潜力,使其更适合 MLLM。
- 进一步探索自增强策略:计划通过引入更多认可的标准(如美学质量)进一步探索我们的自增强策略,从而更好地利用数据,并生成更符合人类偏好的内容。
这些未来的方向将显著拓宽 ILLUME 的应用范围和效果,为实现统一的、高效的“任何任务、任何模态” MLLM 奠定基础。
本文转自AI生成未来 ,作者:AI生成未来