鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果

发布于 2024-10-10 14:48

浏览

0收藏

这篇文章给大家介绍一下阿里发表的多模态大模型工作mPLUG-Owl，共2篇文章，建立在前序图像表征对齐预训练大语言模型的思路，提出了不同的参数训练方式、多模态解耦映射等优化方法，在多项任务取得了SOTA效果。

相关论文：

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

1.核心思路

多模态大模型希望构建一个能同时处理文本、图像等不同模态信息的数据，解决复杂的图文推理等多模态任务。在NLP中的大语言模型逐渐兴起后，多模态模型的一个主要构建思路为：以预训练的大语言模型LLM为基座，通过ViT等Vision Encoder将图像映射成表征，和文本token embedding拼接到一起输入大模型，结合预训练、Instruction Tuning等方法进行训练。

这种多模态大模型的建模方法，经过2年的研究，逐渐完善起来。阿里的mPLUG-Owl工作，就建立在这个思路基础之上。

2.基础模型结构

第一版本的mPLUG-Owl核心结构如下图，主要包括一个预训练的LLM、一个图像编码器、一个视觉抽象器3个部分。

其中的核心是，如何将图像信息进行比较好的处理，和LLM的表征空间对齐。对于图像信息，对图像分patch后，采用预训练ViT进行处理，生成每个patch的embedding。由于图像中包含背景等噪声信息，且维度较高，直接将原始图像信息输入语言模型难以学习且复杂度高。因此，文中引入了Visual Abstractor模块，对基础的图像特征进行抽象。

Visual Abstractor由cross attention构成，使用一些可学习的token embedding和原始图像的patch embedding进行cross attention计算，token的数量远小于patch的数量，选择性的将patch embedding的重要信息汇聚到可学习token上。

Visual Abstractor输出多个视觉token embedding，和文本的token embedding拼接到一起，输入到预训练的LLM中。

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果-AI.x社区

3.训练方式

视觉特征对齐语言模型的多模态大模型，一般采用两个阶段进行训练。在第一个阶段，使用基础的图文数据构建生成式任务，第二阶段利用Instruction Tuning的方式让模型进一步提升复杂多模态理解能力。

在之前的很多工作中，都采用这种两阶段的训练，但是更新的参数不同。比如MiniGPT4只更新图像表征到LLM输入的MLP映射网络，其他方法也对Visual Encoder进行了冻结。为了提升多模态的联合学习能力，本文在预训练阶段，打开Visual Encoder的参数更新，强化模型的多模态训练过程。在第二阶段，冻结Visual Encoder参数，finetune语言模型参数。

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果-AI.x社区

4.V2版本优化

在近期阿里发布的mPLUG-Owl2工作中，主要对多模态的对齐进行了优化。

这里的核心优化点是对语言模型的self-attention机制进行了优化，对于两个模态的表征，分别使用独立layer normalization缩放到相同scale后，使用两组不同的MLP网络分别进行两个模态表征到同空间的映射。

相比之前共享MLP的映射方法，这种独立映射的方法保留了两个模态个性化的信息，又能映射到相同空间。在attention后再分别接各自模态的layer normalization生成最终预测结果。

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果-AI.x社区

在知识星球中，也为大家整理了这种视觉对齐LLM的多模态大模型历史工作，感兴趣的同学可以加入学习。

5.实验效果

文中对比了mPLUG-Owl在各项任务上和MiniGPT、BLIP、LLaVA等多模态大模型的效果，均取得了SOTA效果，验证了mPLUG-Owl的多模态理解能力。

阿里达摩院最新多模态大模型介绍，多项图文任务取得SOTA效果-AI.x社区

本文转载自圆圆的算法笔记，作者： Fareise

标签

赞

收藏

回复

举报

回复

相关推荐

大模型融合！最新「进化算法」全自动组合开源模型，刷榜多项基准测试

duhorse • 1715浏览 • 0回复
字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

Crystalcxt • 2067浏览 • 0回复
AI读论文新神器：多栏密集文字、中英图文混排文档都能读的多模态大模型Fox

Crystalcxt • 2579浏览 • 0回复
超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

轻薄滴假象 • 1869浏览 • 0回复
模型图文多模态能力评测结果全公开

恋恋青鸟 • 7047浏览 • 0回复
阿里开源多模态视觉语言模型，多项超越GPT4o与Claude 3.5-Sonnet

angel • 8441浏览 • 0回复
上交最新时空预测模型PredFormer，纯Transformer架构，多个数据集取得SOTA效果

海因斯DK • 3914浏览 • 0回复
南大&阿里发布多模态大模型WINGS，解决基于LLM的多模态训练灾难遗忘问题

海因斯DK • 2337浏览 • 0回复
支持20+视觉任务，多项SOTA！可扩展多任务视觉基础模型LaVin-DiT：融合时空VAE与DiT

angel • 1657浏览 • 0回复
大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型

AI探索时代 • 1.3w浏览 • 0回复
M3DocRAG：文档问答用哪个多模态大模型效果最好？

大语言模型论文跟踪 • 2133浏览 • 0回复
如何全面评估多模态大模型能力？MLLM评测任务与指标总结

shizhi02 • 5986浏览 • 0回复
文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

angel • 1622浏览 • 0回复
多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

NLP工作站 • 1297浏览 • 0回复
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

Crystalcxt • 1584浏览 • 0回复
Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK • 1603浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 1879浏览 • 0回复
AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

angel • 705浏览 • 0回复
Agno框架介绍：用于构建多模态智能体的轻量库

51CTO内容精选 • 60浏览 • 0回复

LV.2

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

14

帖子

165

声望

0

粉丝

关注

最近发布

大模型系列：一文汇总16个深度语言模型代表工作 6天前发布
时序Pattern提取+语义对齐增强基于LLM的时序预测效果 2025-03-26 00:52:59发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

暴论：2025年，程序员必学技能就是 MCP 0回复

上一篇：时序预测数据处理新方法汇总：多粒度和频域的可逆归一化

下一篇：上交最新时空预测模型PredFormer，纯Transformer架构，多个数据集取得SOTA效果

社区精华内容

目录

1.核心思路
2.基础模型结构
3.训练方式
4.V2版本优化
5.实验效果

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载