鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

发布于 2025-3-4 09:50

浏览

0收藏

文本丰富的图像（如文档、图表、场景图等）在现实场景中扮演着重要角色，准确理解这些图像对于自动化信息提取和优化用户交互至关重要。文本丰富图像理解（Text-rich Image Understanding, TIU）领域涉及两个核心能力：

感知（如文本检测、识别）
理解（如信息抽取、视觉问答）

多模态大语言模型（MLLMs）的出现为文本丰富的图像理解（TIU）领域带来了新的维度，系统地分析了该领域 MLLMs的时间线、架构、训练流程、数据集与基准测试。

TIU MLLMs时间线

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述-AI.x社区

1、模型架构

TIU MLLMs的框架通常包括三个核心组件：视觉编码器、模态连接器和LLM解码器。

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述-AI.x社区

视觉编码器：负责将输入图像转换为特征表示，分为OCR-free（如CLIP、ConvNeXt）和OCR-based（如LayoutLMv3）两种方式。混合编码器结合了两者的优点。

现代LLMs的进化树追溯了近年来语言模型的发展，并突出了其中一些最知名的模型。根据编码器的分类，蓝色分支代表OCR-free（无OCR），粉色分支代表OCR-based（基于OCR），绿色分支代表混合编码器。

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述-AI.x社区

模态连接器：用于将视觉特征与语言特征对齐，常见的方法包括线性投影、多层感知机（MLP）、交叉注意力等。
LLM解码器：将对齐后的特征输入LLM进行推理，生成最终答案。常用的LLM包括LLaMA系列、Qwen系列、Vicuna系列和InternLM系列。

2、训练流程

MLLM的训练分为三个阶段：模态对齐、指令对齐和偏好对齐。

代表性主流多模态大语言模型（MLLMs）的总结，包括模型架构、训练流程以及在TIU领域四个最受欢迎基准测试中的得分。“Private”表示该MLLM使用了专有的大型模型。“†”表示结果是通过下载官方开源模型并在本地测试获得的。

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述-AI.x社区

模态对齐：通过OCR数据预训练模型，弥合视觉和语言模态之间的差距。任务包括文本识别、文本定位、图表解析等。
指令对齐：通过指令微调（SFT）提升模型的多模态感知、跨模态推理能力和零样本泛化能力。分为视觉-语义锚定、提示多样化增强和零样本泛化三个层次。
偏好对齐：优化模型输出以符合人类价值观和期望，如通过混合偏好优化（MPO）提升模型性能。

3、数据集与基准测试

TIU任务的发展依赖于大量专门的数据集和标准化基准测试。这些数据集分为领域特定（如文档、图表、场景、表格、GUI）和综合场景两大类。

文本丰富图像理解领域的代表性数据集和基准测试。每个数据集通常根据其内容、功能和用户需求标记为训练或测试用途。

2025首篇关于多模态大模型在富文本图像理解上的全面研究综述-AI.x社区

例如：

文档：DocVQA、InfoVQA、DocGenome等。
图表：ChartQA、PlotQA、ChartBench等。
场景：TextCaps、TextVQA、ICDAR系列等。
表格：TableQA、WikiTableQuestions、TableVQA-Bench等。
综合：OCRbench、Seed-bench-2-plus、MMDocBench等。

https://arxiv.org/pdf/2502.16586 
Multimodal Large Language Models for Text-rich Image Understanding: AComprehensive Review1.
2.

本文转载自PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

Agent四大范式 | 综述：全面理解Agent工作原理

大语言模型论文跟踪 • 6291浏览 • 0回复
综述：大语言模型在信息抽取上的应用

xuxiangda • 4451浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2835浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2654浏览 • 0回复
MUMU：用文本、图像引导，多模态图像生成模型

Aceryt • 2101浏览 • 0回复
多模态大语言模型的演变全回顾！（视觉定位、图像生成、编辑、理解）

angel • 3207浏览 • 0回复
一篇大模型Agent最新综述

探索AGI • 2755浏览 • 0回复
从秒级到小时级：TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述

angel • 4956浏览 • 0回复
多模态大模型最全综述导读

shizhi02 • 2422浏览 • 0回复
首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

angel • 5710浏览 • 0回复
一篇大模型RAG最新综述

NLP前沿1 • 2402浏览 • 0回复
多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用

大模型自然语言处理 • 2204浏览 • 0回复
多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

十一月雨_55 • 7769浏览 • 0回复
一篇大模型GraphRAG最新综述

探索AGI • 2053浏览 • 0回复
多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

NLP工作站 • 1353浏览 • 0回复
Tiktok多模态大模型最新研究：显示序列建模提升视频理解能力

海因斯DK • 1707浏览 • 0回复
时序+图像+文本，多模态增强的时序预测模型

海因斯DK • 2907浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 1367浏览 • 0回复
融合语言模型的多模态大模型研究

zhcs333 • 838浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

46

帖子

432

声望

1

粉丝

关注

最近发布

Llama4 刚开源就要被网友玩坏了！ 9天前发布
DeepSeek与Qwen组团开源了模型，冲! 2025-03-26 09:39:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： DeepSeek全新注意力机制NSA发布，超快速长文训练与推理

下一篇：冲，DeepSeek-R1/V3推理系统架构设计被开源了！

社区精华内容

目录

1、模型架构
2、训练流程
3、数据集与基准测试

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载