多模态大模型数据构造方法原创

shizhi02

发布于 2024-11-19 12:54

浏览

0收藏

本文将以LLaVA和MiniGPT-4为例介绍多模态大模型数据构造的方式。

数据质量是决定多模态模型性能的关键因素。高质量的数据能够减少噪声干扰，提高模型的学习和预测准确性。同时多模态数据的多样性直接影响模型的泛化能力。一个包含丰富多样数据的集合能够训练出更加健壮的模型，使其能够在不同的应用场景中表现良好。

本文以LLaVA和MiniGPT-4为例，介绍相关多模态数据的构造过程，给大家在训练或者微调自己的多模态模型提供思路。

LLava数据构造

LLaVA利用图文对创建了两个数据集：简单的对话数据集(低质量，数据量大，标注成本低)，复杂的对话数据集(高质量，数据量小，标注成本高)。

简单的图文对对话数据。首先利用已有的图文对数据集（图片+对应描述caption），然后利用ChatGPT生成不同的提问方式（描述该图），并将caption作为问题的答案：

"Describe the image concisely."
"Provide a brief description of the given image."
"Offer a succinct explanation of the picture presented."
"Summarize the visual content of the image."
"Give a short and clear explanation of the subsequent image."
"Share a concise interpretation of the image provided."
"Present a compact description of the photo’s key features."
"Relay a brief, clear account of the picture shown."
"Render a clear and concise summary of the photo."
"Write a terse but informative summary of the picture."
"Create a compact narrative representing the image presented."1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

更复杂的图文对对话数据。为了生成多轮对话数据并提高训练数据的多样性。为了使用ChatGPT成带图片的多轮对话数据，作者使用目标检测将图片变成ChatGPT可以读懂的图片描述，如下图所示，更定更加精确的坐标信息等：

多模态大模型数据构造方法-AI.x社区

MiniGPT-4数据构造

MiniGPT-4细致构建了一个专为对齐任务设计的优质图像与文本数据集，以微调MiniGPT-4模型。在第一阶段，图像与文本的初始对齐是通过使用第一个预训练阶段得到的模型来完成的，该模型能够为给定的图像生成详尽的描述。

首先设置了一个通用的问答对话模版：

###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:1.

其中，<ImageFeature>是指由线性投影层产生的视觉特征。为了识别不完整的句子，检查生成的句子是否超过80个tokens。如果没有，会添加一个额外的提示：

###Human: Continue ###Assistant:1.

此外，由于生成的图像描述中存在诸多问题，如噪声较多、错误频出（包括单词或句子的重复）以及陈述不连贯等，为了解决这些问题，我们采用了ChatGPT，并借助特定的提示来优化和完善这些描述。

修正给定段落中的错误。删除任何重复的句子、无意义的字符、非英语句子等等。删除不必要的重复。重写任何不完整的句子。直接返回结果，无需解释。如果输入的段落已经正确，则直接返回该段落，无需解释。
Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.1.
2.

在上述后处理步骤完成后，要对每张图像的描述进行细致人工审核，以确保其达到高标准的质量。具体而言，逐个检查生成的图像描述是否符合预期的格式，并对ChatGPT未能识别的冗余词汇或句子进行了手动编辑和润色，即可用来进行第一阶段的训练。

在第二阶段微调时，使用以下模板中预定义的提示：

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant:1.

在此提示中，<Instruction>表示从预定义的指令集中随机采样的指令，其中包含各种形式的指令，如“详细描述此图像”或“您能为我描述此图像的内容吗”。

文转载自公众号瓦力算法学研所，作者：喜欢瓦力的卷卷

原文链接：https://mp.weixin.qq.com/s/8Ev5BY4VxEdHC2m-mT4k2Q

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多模态

大模型

数据构造

相关推荐

通用的数据清洗框架：利用多模态大模型检测数据集中的恶意样本

烂漫树林 • 5616浏览 • 0回复
什么是多模态大模型？为什么需要多模态大模型？

AI探索时代 • 3877浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1809浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 3267浏览 • 0回复
多模态大模型最全综述导读

shizhi02 • 2243浏览 • 0回复
多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

shizhi02 • 1521浏览 • 0回复
多模态大模型：基础架构

鲁班模锤1 • 1792浏览 • 0回复
什么是多模态大模型

AI探索时代 • 2157浏览 • 0回复
OCR-free感知多模态大模型技术链路及训练数据细节

大模型自然语言处理 • 2052浏览 • 0回复
英伟达NVLM多模态大模型细节和数据集

大模型自然语言处理 • 1841浏览 • 0回复
EarthMarker：首个视觉提示遥感多模态大模型

AIRoobt • 2495浏览 • 0回复
DeepSeek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈

大模型自然语言处理 • 2337浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 1705浏览 • 0回复
Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

大模型自然语言处理 • 1319浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 1121浏览 • 0回复
多模态大模型Ovis核心技术点、训练方法、数据细节

大模型自然语言处理 • 1149浏览 • 0回复
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

大模型自然语言处理 • 1121浏览 • 0回复
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

大模型自然语言处理 • 1663浏览 • 0回复
融合语言模型的多模态大模型研究

zhcs333 • 506浏览 • 0回复

shizhi02

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

多模态大模型数据构造方法原创

LLava数据构造

MiniGPT-4数据构造

目录

51CTO

51CTO博客

51CTO学堂

多模态大模型数据构造方法 原创

LLava数据构造

MiniGPT-4数据构造

目录

多模态大模型数据构造方法原创