多模态与伪多模态大模型 原创
“ 透过现象看本质,才是最应该做的选择 ”
对大模型了解的人应该知道,大模型是因为openAI的GPT模型爆火的,当然大模型的发展也是经过多年的发展才有了今天的地步。
在之前的文章中也介绍过,大模型的全程是大规模预训练语言模型的简称,也就是说大模型刚开始是在语言处理领域大放异彩的。
因此,可以说大模型是深度学习,也就是神经网络模型与自然语言处理相结合而产生的一种技术。
而随着大模型在自然语言处理领域的爆发,一些技术人员开始把大模型应用到图片处理,视频处理等领域,后来慢慢就诞生了处理各种模态数据的模型。
到今天,多模态成为了主流。
多模态大模型
什么是多模态?
模态值得是数据类型,比如文本,图片,视频等;而多模态就是指能够同时处理文本,图片,视频等多种模态数据的模型。
简单来说,多模态大模型就像一个人一样,他既会写字认字,也会绘画欣赏画,他即能通过拍视频的方式表达自己;也能看懂别人视频所表达的思想。
而多模态大模型就是这样,它既能看懂别人的文字,也能看懂别人的视频,也可以把别人的视频用语言表达出来,这就是多模态大模型。
这种实现方式,需要解决很多技术难点,比如说文本和视频或图片内容等多种模态数据之间的融合,模态之间的数据差异问题,数据对齐与一致性问题等。
这种实现多模态大模型的方式,叫做真多模态大模型。
但实现多模态只有这种方式吗?
其实,还有另一种实现多模态的方式或者说方法;那就是在多个处理不同模态数据的大模型之上,构建一个虚拟的“多模态大模型”,我叫他伪多模态大模型。
简单来说就是真实的多模态大模型就相当于一个无所不能的人,天文地理,物理化学,前知五百年后晓五百世;而伪多模态大模型,就相当于给阿斗配一个顶级智囊团,虽然阿斗什么都不懂,但他可以问啊。
就比如说,用户输入一段文字,这时前置模块就可以识别出这是文本模块,那么它就可以问其它的大模型,你们谁能处理文本,然后文本模型就会说我我我。
而如果用户输入一段视频,那么前置模块就可以找一个视频处理的大模型,最后再通过后置的转化模块,把输出数据转化为用户需要的格式。
这就是伪多模态,很多初创企业干的就是这种产品,他们通过集成多种类型的模型,来实现对多种模态数据的处理。
当然,这种伪多模态模型虽然在外人看来都差不多,但我们要知道它们使用的是完全不同的技术;并且,伪多模态大模型虽然能够处理一些简单任务,但在复杂任务中可能就没有真正的多模态模型表现得好了。
很多东西如果不能透过表象看本质,就会导致很大的认知偏差;比如说,我们都以为语音处理的大模型,它是直接处理语音格式的数据,事实上是会有一个前置层,先把语音文件转化为文本格式,然后再让大模型处理。
等大模型处理完之后,再把文本格式的数据转换为语音数据输出,前者技术叫ASR,后者叫TTS。
本文转载自公众号AI探索时代 作者:DFires
原文链接:https://mp.weixin.qq.com/s/AXTjnpb2l1c-KeZSOpm_NA