多模态大模型最全综述导读 原创

发布于 2024-10-16 10:11
浏览
0收藏

多模态大模型最新研究综述简单版。

不知道最近微软出的多模态大模型最全综述  Multimodal Foundation Models: From Specialists to General-Purpose Assistants 大家有没有看~

包含5大主题一共119页,内容又干又多,目前网上找到的中文解读干货内容都比较全比较长,很容易迷失其中,一直难以看完。

多模态大模型最全综述导读-AI.x社区

本期来给大家做一个这篇论文相对简单的导读;如果大家有想要着重了解部分或感兴趣的内容可以先针对性地看。

下面是一个快捷目录。

1. 章节分布

2. 具体内容解读

章节分布

论文从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

  • 视觉理解
  • 视觉生成
  • 统一视觉模型
  • LLM加持的多模态大模型
  • 多模态agent

这里瓦力画了一个比较简单的图,大致总结一下各个主题的内容,大家可以参考。

多模态大模型最全综述导读-AI.x社区

多模态大模型最全综述导读-AI.x社区


具体内容解读

具体的模型、算法大家都可以针对性地自己了解,这里先给大家总结一些比较关键的点:

1. 语言或视觉多模态的开发路线

多模态大模型最全综述导读-AI.x社区

上述四个类别中,第一类是任务特定模型,后面三类属于基础模型。

下面以语言为例,聊聊AI的演进趋势:

  • Task-Specific Models:可以对标以前LSTM/RNN时代,需要一个任务训练一个模型。
  • Pre-trained Models:transformer(BERT、GPT)时代,先有预训练的权重,再继续适配下游任务进行一次训练,但还是不同下游任务适配的不一样权重;这个时代大家站transformer比较多,GPT此类单向注意力的模型一般在生成任务且要求序列生成较稳定的情况下使用。
  • Unified Models with Emerging Capabilities开始,GPT3已经展现了一些涌现能力。
  • General-purpose Assistant时代:OpenAI坚定地走了GPT路线,并对生成结果进行了对齐,ChatGPT就此诞生了~

2. 多模态中经典的5个问题

论文中回答了经典的5个问题,也阐述了多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。

多模态大模型最全综述导读-AI.x社区

Q1:如何学习视觉表示?

Q2:如何做视觉生成?

Q3:如何不基于大语言模型训练一个通用视觉模型?

Q4:如何训练多模态大语言模型

Q5:如何为大语言模型链接一个多模态专家?

下面是论文中各章节及经典的模型推荐,其中橙色的部分,也就是视觉理解主题部分回答了Q1;绿色的部分,视觉生成主题部分回答了Q2;蓝色的部分,回答了Q3~Q5。

多模态大模型最全综述导读-AI.x社区

下面我从文章摘取一些内容简单回答来上述5个问题,如果大家需要详细了解的话可以从上图中对应章节去研读:

Q1:如何学习视觉表示?

多模态大模型最全综述导读-AI.x社区

下图比较清晰的展现了现有的四种方法:

多模态大模型最全综述导读-AI.x社区

此外,论文中还列出了上述方法的代表模型。

多模态大模型最全综述导读-AI.x社区

  • 监督学习
  • 对比语言-图像预训练


多模态大模型最全综述导读-AI.x社区


多模态大模型最全综述导读-AI.x社区

  • 纯图像自我监督学习(对比学习、非对比学习)

多模态大模型最全综述导读-AI.x社区

  • 掩码图像建模

多模态大模型最全综述导读-AI.x社区

Q2:如何做视觉生成?

现有方法的代表模型。

多模态大模型最全综述导读-AI.x社区

1) 具有代表性的文本到图像生成模型

多模态大模型最全综述导读-AI.x社区

2)经典的扩散模型架构

多模态大模型最全综述导读-AI.x社区

3)未来研究趋势:统一调优,实现人工对齐

具体又可以分为这三个方向:

  • 统一的图像和文本输入。
  • 调整以对齐为中心的损失和奖励。
  • 多模态内容理解和生成的闭环。

Q3:如何不基于大语言模型训练一个通用视觉模型?

现有方法的代表模型。

多模态大模型最全综述导读-AI.x社区

1)从封闭集到开放集

通过引入对比语言-图像预训练方法来训练开放集模型,解决了传统封闭集模型的局限性。如图 4.2 (a) 所示,CLIP 不是学习从输入到标签的映射,而是使用数亿个图像-文本对学习对齐的视觉语义空间。

多模态大模型最全综述导读-AI.x社区

2)从特殊任务到通用

可分为I/O Unification 和Functionality Unification,也就是I/O统一和功能统一。

  • I/O统一:使用分词器将各种任务中使用的不同模式的原始输入和输出 (I/O) 分词化为连贯的序列(视觉或文本)分词,然后利用统一的序列到序列模型。
  • 功能统一:最近许多研究都使用了类似于transformer 的 Encoder-Decoder 架构,需要复杂的模型设计来适应各种任务。

多模态大模型最全综述导读-AI.x社区

3)从静态到可提示

这里的研究主要是一些增强静态视觉模型的能力,目的是为了支持:(i) 多模态提示;(ii) 上下文提示。

Q4:如何训练多模态大语言模型?

这里文中举了两个例子:

1)LMM 使用图像-文本成对实例进行训练

大多数 LMM 都是在大量图像-文本对上训练的,其中每个训练样本都是一对。

多模态大模型最全综述导读-AI.x社区


多模态大模型最全综述导读-AI.x社区

2)使用交错图像文本序列实例训练的 LMM。

论文中以Flamingo为例, Flamingo 使用仅来自 Web 的互补大规模多模态数据的混合进行训练,而不使用任何用于机器学习目的的注释数据。训练完成后,Flamingo可以通过简单的few-shot learning 直接适应视觉任务,而无需任何额外的任务特定调整。

多模态大模型最全综述导读-AI.x社区

多模态大模型最全综述导读-AI.x社区

Q5:如何为大语言模型链接一个多模态专家?

这里以MM-ReAct为例,其系统范式由 Chat GPT 组成了多模态工具,用于多模态推理和动作。通过使用各种多模态工具增强纯语言的 ChatGPT,MM-REACT 支持多模态的输入和输出,包括文本、图像和视频。

多模态大模型最全综述导读-AI.x社区

再下面是MM-REAC涌现的多模态推理和动作功能。

多模态大模型最全综述导读-AI.x社区

那么论文的简单导读就是这样了,如果大家觉得论文过长文本看不进去还可以看论文中1.4节附上的视频,B站和youtube都有;虽然是英文的,但结合PPT整体看下来是比较容易理解的。

参考文献:

[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)


文转载自公众号瓦力算法学研所,作者:喜欢瓦力的卷卷

原文链接:​https://mp.weixin.qq.com/s/fTiUSPZi8q3qy-Lnt6_EZQ​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2024-10-16 12:45:42修改
收藏
回复
举报
回复
相关推荐