
回复
文本丰富的图像(如文档、图表、场景图等)在现实场景中扮演着重要角色,准确理解这些图像对于自动化信息提取和优化用户交互至关重要。文本丰富图像理解(Text-rich Image Understanding, TIU)领域涉及两个核心能力:
多模态大语言模型(MLLMs)的出现为文本丰富的图像理解(TIU)领域带来了新的维度,系统地分析了该领域 MLLMs的时间线、架构、训练流程、数据集与基准测试。
TIU MLLMs时间线
TIU MLLMs的框架通常包括三个核心组件:视觉编码器、模态连接器和LLM解码器。
现代LLMs的进化树追溯了近年来语言模型的发展,并突出了其中一些最知名的模型。根据编码器的分类,蓝色分支代表OCR-free(无OCR),粉色分支代表OCR-based(基于OCR),绿色分支代表混合编码器。
MLLM的训练分为三个阶段:模态对齐、指令对齐和偏好对齐。
代表性主流多模态大语言模型(MLLMs)的总结,包括模型架构、训练流程以及在TIU领域四个最受欢迎基准测试中的得分。“Private”表示该MLLM使用了专有的大型模型。“†”表示结果是通过下载官方开源模型并在本地测试获得的。
TIU任务的发展依赖于大量专门的数据集和标准化基准测试。这些数据集分为领域特定(如文档、图表、场景、表格、GUI)和综合场景两大类。
文本丰富图像理解领域的代表性数据集和基准测试。每个数据集通常根据其内容、功能和用户需求标记为训练或测试用途。
例如:
https://arxiv.org/pdf/2502.16586
Multimodal Large Language Models for Text-rich Image Understanding: AComprehensive Review
本文转载自PaperAgent