2025首篇关于多模态大模型在富文本图像理解上的全面研究综述
社区头条 文本丰富的图像(如文档、图表、场景图等)在现实场景中扮演着重要角色,准确理解这些图像对于自动化信息提取和优化用户交互至关重要。文本丰富图像理解(TextrichImageUnderstanding,TIU)领域涉及两个核心能力:感知(如文本检测、识别)理解(如信息抽取、视觉问答)多模态大语言模型(MLLMs)的出现为文本丰富的图像理解(TIU)领域带来了新的维度,系统地分析了该领域MLLMs的时间线、架构、训练流程、数据集与基准测试。TI...