
融合语言模型的多模态大模型研究
近年来,大语言模型(Large language model, LLM)取得了显著进展。以ChatGPT为代表的LLM在自然语言任务上展现出惊人的智能涌现能力。尽管LLM在很多推理任务上表现出前所未有的接近人类的性能,但是单纯的LLM只能处理文本类任务。与此同时,在大规模数据集上预训练的视觉基础模型也在快速发展。尽管在视觉领域还没有出现“ChatGPT时刻”,但是预训练视觉基础模型已经可以在很多真实视觉场景、数据集上表现出优秀的零样本、少样本性能。如何将两者在各自领域的优秀性能结合起来,实现在视觉-语言领域具有推理能力的通用大模型是当前一个热门研究课题。
1.模型介绍
GPT-4在技术报告中展示了惊艳的多模态能力,如图1、2、3所示。但是GPT-4还没开放多模态能力的接口。很多研究者已经基于开源LLM进行了相关的研究,力图达到GPT-4展示的强大多模态性能。
下面以发布时间为顺序,介绍主流的融合LLM的多模态模型各自的一些特点,以此窥见此类技术的发展趋势。
▲ 图1 让GPT-4描述图中有趣的地方
GPT-4可以识别出VGA接口和lightning接口,而且判断出VGA接口与手机是不匹配的。
▲ 图2 GPT-4GPT-4既可以识别出熨烫衣服,也能够识别出租车在行驶,最终识别出这两个场景出现在一个画面中是不正常的。
▲ 图3 GPT-4推理能力
GPT-4在这个画面的识别中展现出了较为强大的推理能力GPT-4指出这张图中的主体是按照世界地图形状摆放的鸡块。而文字部分的描述是“从太空俯视地球的照片”。这种文字和图片内容的反差形成了一个幽默的笑话。BLIP2[1]是较早提出“LLM + 视觉编码器“这种多模态模型构想的工作,整体结构如图5。这个工作主要提出了Q-former这个跨视觉语言模态的连接结构。如图4所示,Q-former结构设计包括了 image-text matching, image-grounded text generation, image-text contrastive learning。这些对齐语言和视觉特征的设计主要来源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5语言模型,这些模型在语言生成方面的能力不是特别强。BLIP2的预训练分为两阶段,第一阶段Q-former与一个冻结参数的image encoder训练,学习视觉语言表征;第二阶段Q-former与冻结的LLM训练,学习视觉到文本的生成能力。在进行一些下游任务,如image caption,visual question answering(VQA),BLIP2模型仍需要微调Q-former和image-encoder的模型权重。BLIP2模型的一个缺陷是,没有in context learning能力,上下文关联对话能力较差。作者认为原因是BLIP2的训练数据是单对的图文对,数据本身就缺少多轮对话相关性。
▲ 图4 Q-former结构
▲ 图5 Q-former两阶段预训练
MiniGPT-4是作者场景复现GPT-4强大的多模态能力提出的工作。MiniGPT-4将Q-former & ViT视为一个参数冻结的整体。LLM也保持参数冻结。如图所示,MiniGPT-4通过一个线性层来跨模态连接这两个部分。Mini-GPT4使用语言生成能力较强的Vicuna模型(基于开源LLaMA模型构建)作为LLM,生成文本质量进一步提高。MiniGPT-4性能表现的提高也得益于训练数据的质量。作者表示只使用来自公开数据集的图文对数据是无法训练出优秀的多模态语言模型的。MiniGPT-4使用了3500对高质量图文数据对模型进行微调。MiniGPT-4模型的训练分为两阶段,第一阶段是在大量图文对数据集上预训练,获得视觉语言对齐能力。第二阶段是在高质量图文数据上微调以获得较强的对话能力。这种两阶段的训练方法也成为了未来一些工作的主流训练范式。MiniGPT-4使用的3500对高质量数据集是来源于作者使用第一阶段预训练完成的模型,通过提示工程的方法为每张图片生成长度更长,描述信息更加丰富、细节的文本。这些文本通常具有很多噪声和内容错误,作者利用ChatGPT对第一阶段的生成文本进行再优化。MiniGPT4这个工作进一步说明了数据质量对于模型对话能力的重要性。
▲ 图6 MiniGPT-4模型结构
微软团队在MiniGPT-4发布相近的时间点提出了LLaVA模型这篇工作。两篇工作都提升了多模态语言模型在复杂对话方面的能力,具有一定相似性,实现技术方案各有特点。LLaVA使用线性层连接连接image encoder的视觉特征和语言指令,共同送入到LLM的输入。LLaVA没有保留Q-former这种比较重型的结构,直接使用线性层连接视觉语言模态,第一次将跨模态连接结构简化至这个程度。LLaVA模型的训练也分为两个阶段。第一阶段使用图文对数据进行训练,这一阶段是为了对齐视觉和图像特征,这个阶段视觉编码器和LLM的参数均冻结,仅训练连接层。第二阶段使用多轮对话图文数据进行训练,在这个阶段训练连接层和LLM的参数。LLaVA在多模态推理评测数据集Science QA上达到了最高水平。LLaVA强大的性能来自于作者构造的一套指令跟随数据集(instruction-following)。与MiniGPT-4主要利用一阶段训练模型进行微调数据生成,还需要进行文本噪声、错误后处理不同,LLaVA调用GPT-4接口,结合人类标注的图文信息,进行高质量的多轮对话图文数据生成。作者将这个高质量图文对话数据集命名为LLaVA-150K并且开源。LLaVA-150K包含了基于图像信息构造的“对话、细节描述、复杂推理”三种类型的文本内容。
▲ 图7 InstructBLIP使用的多种数据集及其任务类型
2.总结
从以上这些融合了LLM的多模态模型,我们可以得到一些发现。这些工作主要都是集中在23年,可能是受GPT4所展示的多模态能力的启发。目前融合LLM和视觉模型的方式还相对简单粗暴,但是已经展现出了优秀的效果,未来多模态通用模型可能成为人工智能的下一个发展目标。视觉研究者和语言大模型研究者的研究范式呈现出越来越相近的趋势。
参考文献
[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.
[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.
[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.
本文转载自AI遇见云,作者:张燚钧
