适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性

发布于 2024-12-11 11:46
浏览
0收藏

今天给大家介绍一篇北大、阿里联合发布的多模态大模型工作。这篇文章重点解决多图像输入的多模态大模型建模方法,融合粗粒度、细粒度信息,显著提升了多模态大模型在多图输入复杂场景中的效果。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

论文标题:MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

下载地址:​​https://arxiv.org/pdf/2408.12321​

1.研究背景

现有的多模态大模型,大多数研究的都是一个图像输入的场景。而更加复杂的多图输入的场景,却面临着2个核心的难点。多图场景指的是需要同时输入多张图像以及相关文本,让大模型进行推理的场景。多图场景的第一个难点在于输入图像的长度。现在的多模态大模型都利用ViT结构将图像处理成patch表征序列输入,多张图会导致输入序列太长,导致计算复杂度显著提升。另一个问题在于现在的多模态大模型图像侧的建模,都采用类似Q-Former中的方法,用一个固定长度的query和ViT生成的patch表征序列进行cross-attention,生成图像的摘要信息作为LLM的输入。这种方式的虽然可以有效缩短输入图像的尺寸,但是对图像表征的抽取精度会下降。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

针对上述问题,本文提出了一种适用于多图场景的多模态建模方法。核心是借助了离散化技术,将图像进行离散化,抽取粗粒度信息;同时借助ViT等连续表征提取细粒度信息。并结合这两种信息进行有效patch的筛选。最后采用多阶段训练的方式进行图像文本的表征对齐。

2.建模方法

本文的核心优化主要包括3个方面,分别是离散&连续表征patch缩减多阶段训练

首先在表征生成层面,文中同时采用了离散表征和连续表征。连续表征采用的是最常用的ViT,将图像分成多个patch,过Transformer生成每个patch的图像表征。离散表征指的是将图像数据先进行离散化,然后再用模型提取表征,离散化相当于将图像数据向文本数据的类型对齐。在离散化的过程中,将图像转换成token,使模型更关注粗粒度的整体信息。离散化采用了Planting a seed of vision in large language mode中提出的方法,定义一个codebook,每次将计算和当前表征最近的codebook中的表征,实现图像patch到codebook中离散化符号的映射。

为了进一步将图像和文本对齐,对于上述离散化生成的图像token符号,将其和语言模型中的文本token进行融合,构建一个图像+文本统一的底层词表,实现底层数据的跨模态统一。

在patch缩减阶段,主要是为了有效的缩减patch序列长度,减小计算性能。相比之前的query+cross attention进行有效patch选择,本文提出使用离散化的粗粒度表征进行有效patch筛选,更准确的对无效patch进行过滤。具体的,将离散化粗粒度表征和每个patch的ViT连续表征拼接,每个patch映射成1维后过一个sigmoid函数获取每个patch的打分,保留topK个patch,缩短patch输入长度。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

在训练阶段,主要包括4个阶段。第一阶段主要训练patch selector。这里使用 Grounding SAM构建patch selector的伪标签。在第二阶段,训练embedding层,这里的embedding包括了文本token的embedding以及之前根据图像离散化构建的图像token embedding,这个训练过程只使用图像的离散化粗粒度表征作为图像表征参与训练。在第三阶段,主要训练图像表征的映射网络,用来实现图像和文本的跨模态对齐。最后在第四阶段,基于instruction tuning数据进行端到端的多模态任务训练。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

3.实验效果

本文的多模态模型效果如下图,在多图、单图多模态任务中的zero-shot评估上取得了显著的效果提升。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

下图可视化了模型中patch选择器的生效机制,可视化了选中的patch和patch对应的打分。

适用于多图的多模态大模型:粗粒度离散表征+细粒度连续表征提升图像编码准确性-AI.x社区

本文转载自 圆圆的算法笔记​,作者:Fareise

收藏
回复
举报
回复
相关推荐