多模态与伪多模态大模型原创

AI探索时代

发布于 2024-9-10 09:24

浏览

0收藏

“ 透过现象看本质，才是最应该做的选择 ”

对大模型了解的人应该知道，大模型是因为openAI的GPT模型爆火的，当然大模型的发展也是经过多年的发展才有了今天的地步。

在之前的文章中也介绍过，大模型的全程是大规模预训练语言模型的简称，也就是说大模型刚开始是在语言处理领域大放异彩的。

因此，可以说大模型是深度学习，也就是神经网络模型与自然语言处理相结合而产生的一种技术。

而随着大模型在自然语言处理领域的爆发，一些技术人员开始把大模型应用到图片处理，视频处理等领域，后来慢慢就诞生了处理各种模态数据的模型。

到今天，多模态成为了主流。

多模态大模型

什么是多模态？

模态值得是数据类型，比如文本，图片，视频等；而多模态就是指能够同时处理文本，图片，视频等多种模态数据的模型。

简单来说，多模态大模型就像一个人一样，他既会写字认字，也会绘画欣赏画，他即能通过拍视频的方式表达自己；也能看懂别人视频所表达的思想。

而多模态大模型就是这样，它既能看懂别人的文字，也能看懂别人的视频，也可以把别人的视频用语言表达出来，这就是多模态大模型。

多模态与伪多模态大模型-AI.x社区

这种实现方式，需要解决很多技术难点，比如说文本和视频或图片内容等多种模态数据之间的融合，模态之间的数据差异问题，数据对齐与一致性问题等。

这种实现多模态大模型的方式，叫做真多模态大模型。

但实现多模态只有这种方式吗？

其实，还有另一种实现多模态的方式或者说方法；那就是在多个处理不同模态数据的大模型之上，构建一个虚拟的“多模态大模型”，我叫他伪多模态大模型。

简单来说就是真实的多模态大模型就相当于一个无所不能的人，天文地理，物理化学，前知五百年后晓五百世；而伪多模态大模型，就相当于给阿斗配一个顶级智囊团，虽然阿斗什么都不懂，但他可以问啊。

多模态与伪多模态大模型-AI.x社区

就比如说，用户输入一段文字，这时前置模块就可以识别出这是文本模块，那么它就可以问其它的大模型，你们谁能处理文本，然后文本模型就会说我我我。

而如果用户输入一段视频，那么前置模块就可以找一个视频处理的大模型，最后再通过后置的转化模块，把输出数据转化为用户需要的格式。

这就是伪多模态，很多初创企业干的就是这种产品，他们通过集成多种类型的模型，来实现对多种模态数据的处理。

多模态与伪多模态大模型-AI.x社区

当然，这种伪多模态模型虽然在外人看来都差不多，但我们要知道它们使用的是完全不同的技术；并且，伪多模态大模型虽然能够处理一些简单任务，但在复杂任务中可能就没有真正的多模态模型表现得好了。

很多东西如果不能透过表象看本质，就会导致很大的认知偏差；比如说，我们都以为语音处理的大模型，它是直接处理语音格式的数据，事实上是会有一个前置层，先把语音文件转化为文本格式，然后再让大模型处理。

等大模型处理完之后，再把文本格式的数据转换为语音数据输出，前者技术叫ASR，后者叫TTS。

本文转载自公众号AI探索时代作者：DFires

原文链接：https://mp.weixin.qq.com/s/AXTjnpb2l1c-KeZSOpm_NA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多模态

伪多模态

大模型

相关推荐

Grok多模态大模型Grok-1.5V来了！

AIGC最前线 • 2294浏览 • 0回复
多模态视觉-语言大模型的架构演进

angel • 3494浏览 • 0回复
「多模态大模型」解读 | 突破单一文本模态局限

Baihai_IDP • 2372浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 3661浏览 • 0回复
多模态大模型之模态融合的注意点及难点

AI探索时代 • 4135浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 3076浏览 • 0回复
多模态大模型最全综述导读

shizhi02 • 2086浏览 • 0回复
多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

shizhi02 • 1367浏览 • 0回复
多模态大模型：基础架构

鲁班模锤1 • 1625浏览 • 0回复
南大&阿里发布多模态大模型WINGS，解决基于LLM的多模态训练灾难遗忘问题

海因斯DK • 2017浏览 • 0回复
什么是多模态大模型

AI探索时代 • 1954浏览 • 0回复
多模态大模型数据构造方法

shizhi02 • 1862浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1438浏览 • 0回复
如何全面评估多模态大模型能力？MLLM评测任务与指标总结

shizhi02 • 5581浏览 • 0回复
多模态大语言模型的空间智能探秘：突破与挑战

十一月雨_55 • 1476浏览 • 0回复
EarthMarker：首个视觉提示遥感多模态大模型

AIRoobt • 2234浏览 • 0回复
医学领域大模型与多模态大模型的综合调查

知识图谱科技 • 1567浏览 • 0回复
基于多模态大语言模型的上下文目标检测

AIRoobt • 1184浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 934浏览 • 0回复

AIPaperDaily

LV.2

专注搜索、推荐、广告、大模型和人工智能最新技术

觉得TA不错？点个关注精彩不错过

帖子

127

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

多模态与伪多模态大模型原创

多模态大模型

目录

51CTO

51CTO博客

51CTO学堂

多模态与伪多模态大模型 原创

多模态大模型

目录

多模态与伪多模态大模型原创