TextCoT:放大增强型多模态富文本图像理解 原创
摘要:大型多模态模型(Large Multimodal Models, LMMs)的出现引发了旨在利用其卓越推理能力的研究热潮。然而,在理解富含文本的图像方面,要充分发挥LMMs的潜力仍然存在挑战,现有的方法在有效处理高分辨率图像方面面临困难。为此,我们提出了TextCoT,这是一种针对富含文本图像理解的新颖连锁思维(Chain-of-Thought)框架。TextCoT利用LMMs的图片标注能力来把握图像的整体情境,并利用其定位能力来检查局部文本区域,从而实现全局和局部视觉信息的提取,促进了更精确的问题回答。技术上,TextCoT包含三个阶段:图像概览、粗略定位和精细观察。图像概览阶段提供了对全局场景信息的全面理解,粗略定位阶段则根据所提问题大致估算出含有答案的图像区域。随后,结合获取的全局图像描述,最终阶段进一步审视特定区域以提供准确答案。我们的方法无需额外训练,即插即用。在多个先进的LMMs上,针对一系列富含文本的图像问答基准进行了广泛实验,结果显示了我们方法的有效性和强大的泛化能力。代码可于https://github.com/bzluan/TextCoT获取。
1. 引言
近年来,大型语言模型(LLMs)领域的突破性进展以惊人的性能彻底改变了自然语言处理(NLP)领域,横跨广泛的任务。在基础LLMs的基础上,通过将视觉信息整合进LLMs,发展出了大型多模态模型(LMMs),使模型能够从图像和文本中同时获取信息。关于LMMs的研究不断改进模型架构、训练数据和训练策略等,从而在多种场景中提高了性能。在多模态理解领域中,富含文本的图像研究代表了一个关键方向。与一般图像理解相区别,此任务的挑战在于模型需要同时理解图像中交织的视觉和文本内容。此外,由于文本的存在,这类图像通常具有更高的分辨率,比如文档图像[29]就是例子。
在富含文本的图像理解领域,通用的大型多模态模型[32, 33, 63]往往表现不佳。这是因为此类任务的问题答案通常是文本形式的,且常位于图像的局部区域,如在高分辨率图像中识别汽车的车牌号。然而,现有LMMs的输入分辨率通常被限制在448像素以下,这限制了它们有效处理这类查询的能力。为了解决这个问题,一些方法选择开发高分辨率的视觉编码器[15]或将图像分割成多个块[30, 62]进行单独的视觉特征编码。然而,这些解决方案需要额外的训练,并要求大量资源来收集和构建高分辨率的图像-文本问答数据集。
在大型语言模型领域,基于连锁思维(CoT)技术的研究旨在通过无需额外模型训练的刻意推理步骤来克服问题,并已取得了显著的性能提升。这些技术可以直接应用于我们富含文本的图像理解领域。如图1(b)所示,代表性方法ZS-CoT[22]将逐步推理的过程作为模型的新输入,从而获得更准确的响应。然而,ZS-CoT[22]并未实质上解决该任务需要仔细检查局部区域的问题。此外,CCoT[40]是一种针对LMMs优化的先进CoT方法,通过构建模拟物体间关系的场景图(如图1(c)所示)来增强一般场景下的问答能力。但是,CCoT[40]在富含文本的图像上的表现欠佳,这归因于构建文本实例的场景图面临的挑战。
图1展示了(a)基线LMM、(b)零样本CoT [22]、(c)CCoT [40]以及(d)我们提出的TextCoT的流程对比。为了更好地理解富含文本的图像,TextCoT利用LMMs的图片描述能力和定位能力,分别把握图像的整体情境和局部文本区域。
为了解决上述问题,本工作中我们提出了TextCoT,一种针对富含文本图像理解的新颖连锁思维框架。我们的想法灵感来源于人类的认知模式。具体而言,在富含文本且无法记住所有细节的情境下,人们很少主动预测要记忆哪个部分以备后续提问。相反,一种更直观的策略是根据问题引导来扫描文本,锁定可能包含答案的区域,然后详细检查这些细节以形成回答。为了模仿这种多模态思维过程,我们开发了TextCoT。技术上,我们的TextCoT包括三个阶段:图像概览、粗略定位和精细观察。图像概览的初始阶段有助于全面掌握整体场景信息,随后的粗略定位阶段则根据提出的问题估计包含答案的图像部分。接着,通过整合前期获得的图像全局描述,最后阶段深入特定区域以提供精确答案。
为了验证我们的TextCoT,我们在基于几种先进LMMs的一系列富含文本的图像问答基准数据集上进行了广泛的实验。定量和定性的结果均展现了我们方法的有效性和强大的泛化能力。我们的贡献总结如下:
• 我们提出了TextCoT,一种针对富含文本图像理解的新颖连锁思维框架。TextCoT利用LMMs的定位能力来检查特定答案区域,从而促进更准确和细致的问答。
• 我们尝试从连锁思维的角度解决富含文本图像理解任务中的高分辨率视觉输入问题。我们的方法无需额外训练,即插即用。
• 我们基于几种先进的LMMs,在一系列富含文本的图像问答基准数据集上进行了广泛的实验,以验证我们的方法。
2. 相关工作
我们的TextCoT是一种多模态连锁思维方法,旨在通过有效利用大型多模态模型(LMMs)的能力来增强其在富含文本场景中的性能。接下来,我们首先回顾大型语言模型(LLMs)和LMMs的研究,然后讨论针对LLMs和LMMs的连锁思维(CoT)文献。
大型语言模型(LLMs)。随着Transformer架构强大潜力的展示,大型语言模型彻底改变了自然语言处理(NLP)领域。诸如BERT [14]和T5 [45]这样的模型,采用编码器-解码器架构,为深入理解语言细微差别打下了基础。GPT3 [7]以其解码器为中心的设计,在少量样本和零样本学习场景中展现出卓越性能,证明了其在广泛NLP任务上的适应性。PaLM [12]模型通过扩展模型参数和数据集范围,推动了理解和生成能力的极限。InstructGPT [42]和ChatGPT [41]引入了基于人类反馈的微调和强化学习,显著提高了交互质量。此后,像LLaMA [48]和Vicuna [11]这样的开源模型继续推进NLP的前沿基准,为未来研究开辟了新路径。
大型多模态模型(LMMs)。为了将视觉知识融入大型语言模型,通过集成现有视觉-语言模型的视觉编码器和LLMs的推理能力,开发出了大型多模态模型。通过改进预训练对齐和指令微调,MiniGPT-4 [69]、LLaVA [32, 33]、InstructBLIP [13]和mPLUG-Owl [63]等众多研究在各种视觉-语言任务上展示了显著进步。一些研究 [9, 18, 43, 52]利用物体检测和文本检测数据增强了LMMs的定位能力并减少了幻觉。ShareGPT4V [10]通过提高模型标题数据质量,改善了图像和文本模态之间的对齐。Vary [54]、V* [57]和DualFocus [8]通过改进模型架构和训练框架进一步提升了LMMs的基准。
许多LMMs在富含文本的场景中表现不佳,这是由于密集的细粒度信息和高图像分辨率。为了解决这一问题,UniDoc [16]和mPLUG-DocOwl [61]等研究利用文本相关视觉任务数据集来增强模型在文本丰富场景中的能力。Vary-toy [55]和Qwen-VL [4]通过训练更大的视觉编码器增强了对高分辨率图像理解的能力。UReader [62]、Monkey [30, 35]采用了堆叠多个视觉编码器的方法来增加模型的输入分辨率。DocPedia [15]建议使用频域视觉信息来扩展输入分辨率同时减少令牌使用。这些方法显著提高了模型的输入分辨率,极大地增强了理解文本等细粒度细节的能力。尽管这些方法通过训练更复杂的模型架构和视觉任务显示出了出色的结果,但高质量视觉指令训练数据的依赖仍然是一个重大挑战。
思维链提示。一系列专注于连锁思维(CoT)提示方法的研究揭示了大型语言模型的巨大潜力,同时也发现它们的性能由于不足的提示技术并未完全发挥。CoT方法在推理阶段通过提示控制LLMs和LMMs,无需训练或微调就能激发模型的推理潜能。CoT [56]、零样本CoT [22]、CoT-SC [51]、TOT [60]和GOT [5]等研究揭示了LLMs推理能力的重大提升,奠定了连锁思维提示的基础。许多研究 [17, 26, 65]致力于精确操纵提示和训练过程以增强视觉语言模型的推理能力。随着LMMs的出现,许多研究聚焦于LMMs的CoT方法,以增强其推理能力。VidIL [53]、DDCoT [68]和Multimodal-CoT [67]利用LMMs的标注和推理能力取得了有希望的结果。CCoT [40]提出使用JSON格式生成场景图,极大增强了LMMs对图像中对象关系的理解。CoCoT [66]通过观察多张图像间的对比信息增强了LMMs的推理能力。一些研究 [27, 58]通过在图像上添加网格和点矩阵来增强LMMs的检测能力。
尽管这些工作在不同方面表现出色,它们各自都有缺点。常规的LMMs受限于低分辨率,在文本场景中表现不佳,因为它们无法捕捉到细部细节。高分辨率模型的设计、训练和微调需要大量资源,并且经常导致在长文本对话和定位任务上的性能下降。当前的多模态CoT方法未能解决富含文本场景的关键问题,跨模态提示的探索也不足。这突显了一个当前的研究空白:开发一种能够跨视觉和文本模态进行推理的多模态CoT方法。
3. 方法
如图2(左)所示,给定一个全局富含文本的图像I_g和一个问题Q,一种直接的方法是指导LMMs生成答案A_f。然而,受视觉输入粒度的限制,LMMs往往难以提供准确的回答。在这项工作中,我们提议利用LMMs检查特定区域,从而促进更精确的问题回答。我们提出了TextCoT,一个针对富含文本图像理解的新颖连锁思维框架。图2(右)展示了TextCoT的概览。接下来,我们将介绍其三个阶段,包括(1)图像总览、(2)粗略定位和(3)细粒度观察。
3.1. 图像总览
我们的第一步旨在利用LMMs的图像描述能力,生成一个既简洁又全面的图像描述,以此保留图像中的整体信息。具体而言,如图2所示,我们使用全局图像I_g和描述提示P_c来指导LMM,从而获得描述性答案A_c。这个A_c随后将在细粒度观察阶段转换成描述C,为回答给定问题提供全局上下文支持。
近期研究表明[[49, 64]],大型多模态模型产生的较长输出往往会表现出更多的虚构现象,同时较长的输入提示也会降低性能。因此,如图2所示,我们在提示P_c中融入了“一句话内”的短语来控制描述的长度。通过这种方式,我们鼓励生成的描述简洁、准确,并能概括图像中描绘的场景。这样一来,不仅能够减少不实信息的产生,还能保持模型对输入的高效处理能力,确保了描述内容的高质量和相关性。
图2. 标准单阶段LMM(左图)和我们的TextCoT(右图)的概述。TextCoT包括三个阶段:(1) 图像概览,(2) 粗定位,和 (3) 细粒度观察。前两个阶段分别生成图像Ig的全局上下文描述Ac和问题Q的答案区域Ag,从而促进产生更准确的响应Af。
3.2. 粗略定位
我们的第二步目标是利用LMMs的定位能力,在图像I_g中对答案进行定位。具体来说,如图2所示,我们使用问题Q、定位提示P_g以及全局图像I_g来指导LMM,从而生成一个定位答案A_g。这个定位答案包含了答案区域的边界框坐标。接着,我们根据这个边界框裁剪图像,得到局部图像I_l。局部图像I_l在第三阶段被用来让LMM仔细检查这一特定区域,从而生成问题Q的正确答案。接下来我们将介绍我们的裁剪策略。
如图2所示,针对一个全局图像I_g和定位答案A_g,我们以其边界框中心点为焦点,延长较短边以匹配较长边,这样得到一个正方形的边界框,避免了CLIP-ViT[[44, 50]]在调整尺寸操作中可能引起的形变。随后,我们引入了一个超参数:扩展比率alpha,用于扩大裁剪后的正方形区域,经验上设置为1.5。同时,由于LMMs的标准输入分辨率为336×336或448×448,我们设定最小图像尺寸为448×448,以防止扩展操作后出现非常小的边界框。经过上述步骤,我们得到了包含答案的局部区域图像I_l,确保它包含足够的信息以便在后续阶段给出正确回答。如果正方形裁剪超出了图像边界,则将其平移以保持在图像范围内。
许多现有的LMMs并未使用专为文本检测设计的数据集进行训练。它们的定位能力通常是通过在如RefCOCO[[21, 36]]这样的物体检测数据集上的训练习得的。因此,当LMMs被要求在图像中定位文本时,常常会出现定位不准确的情况。然而,这一局限性并不妨碍我们的方法。我们的TextCoT不需要精确的位置输出,一个大致的定位就已经足够。
3.3. 细致观察
最后阶段聚焦于获取的答案区域I_l,以生成对问题的准确响应。具体而言,如图2所述,我们首先在答案描述Ac前添加提示“这是场景的上下文:”,形成描述C。问题Q与第二阶段保持一致。任务提示Pt进一步促使模型关注上述上下文C和问题Q。我们的最终文本提示由C、Pt和Q组成。然后,我们用这个文本提示和图像I_l指导LMM。最终,LMM通过整合图像I_G中的全局上下文信息及局部图像I_l中的细致视觉细节,针对提出的问题Q给出精确答案。
4. 实验
本节基于几项先进的LMMs,在一系列富含文本的图像问答基准数据集上进行了广泛实验。下面,我们首先介绍涉及的LMMs和基准数据集,并进一步展示和讨论实验结果及消融研究。
4.1. 基线LMMs
在我们的实验中,基于五种知名的LMMs评估了TextCoT,包括LLaVA-1.5-7B [[32]]、LLaVA-1.5-13B [[32]]、SPHINX [[31]]、ShareGPT4V [[10]]和Qwen-VL-Chat [[4]]。我们使用官方实现为这些LMMs执行推理。鉴于我们的方法是一种链式思考方法,无需对模型架构或推理过程做任何调整。在推理过程中,为了模型输出的最佳性能和稳定性,所有实验中我们将温度参数设为0,除CoT-SC [[51]]实验外,该实验根据其原始实现设为0.7。下面,我们简要回顾这些LMMs。
LLaVA-1.5。LLaVA-1.5 [[32]]的模型架构用MLP替换了线性投影,以将视觉特征映射到与LLM共享的嵌入空间。LLaVA-1.5 [[32]]在336×336分辨率下使用CLIP-ViT-L [[44]]作为视觉编码器,Vicuna [[11]]作为语言解码器。LLaVA-1.5 [[32]]利用区域级VQA数据集(Visual Genome [[24]]、RefCOCO [[21, 36]])增强模型定位精细视觉实例的能力。我们工作中采用LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]]模型进行评估,以验证我们的TextCoT。我们采用准确性 [[34]] 作为度量标准,即模型生成的响应如果包含地面真值中的字符串,则视为正确。
SPHINX。SPHINX [[31]]引入了权重混合策略,以高效结合领域特定知识,并在指令微调期间解冻其LLM权重。SPHINX [[31]]具有更广泛的多模态问答任务,包括区域级理解、字幕定位和文档布局检测。我们在实验中采用了与LLaVA-1.5 [[32]]相同的度量标准。
ShareGPT4V。ShareGPT4V-7B [[10]]模型遵循LLaVA-1.5 [[32]]的设计。它在预训练和SFT阶段均纳入了ShareGPT4V数据集。尽管竞争对手使用更大的训练数据集或更多参数,ShareGPT4V-7B [[10]]凭借70亿参数在大多数多模态基准测试中表现出色。我们采用了与LLaVA-1.5 [[32]]相同的评估指标。
Qwen-VL-Chat。Qwen-VL-7B [[4]]和Qwen-VL-Chat-7B [[4]]是一系列基于Qwen-7B [[3]]大型语言模型的高度性能和多功能的视觉-语言基础模型。LLM基础通过引入新的视觉受体(包括与语言对齐的视觉编码器和位置感知适配器)增强了视觉能力。对于此模型,我们同样选择上述准确性指标[[34]]。
GPT-4V。与之前的模型不同,GPT-4V [[1]]的架构和预训练细节未公开。一些技术报告 [[59]] 揭示了GPT-4V [[1]]的卓越性能,包括字幕生成、对象定位和计数。GPT-4V [[1]]展示了直接以文本格式生成边界框坐标的能效,无需单独的文本化框令牌。
Claude。Claude 3 [[2]]的架构和预训练细节未公开。Claude 3 [[2]]具有以文本格式生成边界框坐标的能力。我们为定性实验采用了Claude 3 Opus [[2]]模型,这是最强大的版本。
4.2. 数据集
为了说明TextCoT的强大泛化能力,我们选择了几个涵盖广泛场景的评估数据集,包括以场景文本为中心的视觉问答、面向文档的VQA和关键信息提取数据集。下面,我们简要介绍这些数据集。
以场景文本为中心的VQA。TextVQA [[46]]和STVQA [[6]]是场景文本为中心的VQA领域最常用的基准数据集。TextVQA [[46]]基准数据集包含超过45,000个问题,涉及28,000张图像,这些图像来自OpenImages [[23]]数据集的不同类别。STVQA [[6]]基准数据集包含超过31,000个问题,涉及从各种公共数据集中收集的23,000张图像。
面向文档的VQA。DocVQA [[38]]、InfographicVQA [[39]]和ChartQA [[37]]是三个广泛使用的面向文档的VQA任务基准数据集。DocVQA [[38]]数据集包含12,767张不同类型和内容的文档图像,以及超过50,000个相关问题和答案。InfographicVQA [[39]]数据集包含5,485张信息图表图像的多样集合,总计有30,035个问题。ChartQA [[37]]数据集包括9,608个手工制作的问题,针对4,804个图表,以及从17,141个图表的人类书面摘要生成的23,111个问题。
关键信息提取(KIE)。我们进一步使用了KIE领域常见的三个数据集:SROIE [[19]]、FUNSD [[20]]和POIE [[25]]。SROIE [[19]]数据集包含1,000张扫描收据图像,专门用于OCR和关键信息提取竞赛,参与者需识别公司名称、发行日期、地址和总支出等重要细节。FUNSD [[20]]数据集提供了199份真实、完全注释的扫描表格,可能存在噪声,因其实际应用中的变化性和潜在模糊性而构成独特挑战。POIE [[25]]数据集专注于英文产品营养成分标签,积累了包含111,155个文本实例的3,000张图像,主要目标是从这些标签中提取相关信息。
4.3. 结果
我们首先在上述问答数据集上将我们的方法与基线LMM进行比较,然后与先前的链式思考(CoT)方法进行对比。
定量与基线LMM的比较
在表1中,我们评估了五种基线LMM的性能以及集成我们的TextCoT后的性能。评估的LMM涉及不同的模型规模、训练数据和架构。
- 首先,我们的TextCoT显著提高了几乎所有八个数据集上五种先进LMM的性能。这一结果验证了我们逐步审查局部细节以提供更准确回答的想法。
- 其次,比较架构相同但模型规模不同的LLaVA-1.5-7B [[32]]和LLaVA-1.5-13B [[32]],我们的TextCoT分别实现了平均精度提升2.51%和3.72%。值得注意的是,更大模型从我们的TextCoT中获益更多。一个可能的解释是,较大的模型具有更强的认知和推理能力,从而带来更大的效益。这一结论也在LLM领域内得到证实[[56]]。
- 第三,将LLaVA-1.5-7B [[32]]与使用高质量带字幕数据但模型规模和架构相同的ShareGPT4V [[10]]进行对比,我们的TextCoT分别产生了平均2.5%和5.46%的精度提升。这表明随着模型中更好的图文对齐和更高品质的训练数据,TextCoT的有效性增加。
- 最后,当将TextCoT应用于架构和训练数据与上述LMM不同的Qwen-VL-Chat [[4]]时,大多数数据集上的性能有所改善。然而,在DocVQA [[38]]和ChartQA [[37]]数据集上观察到了性能下降。这可归因于Qwen-VL-Chat [[4]]在这些数据集上进行过训练,导致其对该提问风格和图像特征过分熟悉。因此,尝试通过应用TextCoT改变提问风格时,观察到了性能下滑。
定性与基线LMM的比较
我们进一步进行了一系列定性对比。如图3、图4和图5所示,我们展示了两种基线LMM [[10, 32]] 的响应以及集成TextCoT后的增强响应。可以看出,我们的方法成功地逼近了图像中的答案区域,并在场景文本和文档场景中纠正了基线LMM的不准确回答。此外,我们还在先进的GPT-4V [[1]] 和Claude 3 Opus [[2]] 模型上进行了实验。如图6和图7所示,我们的TextCoT增强了这两个模型的响应准确性。即使LMM提供的边界框位置不准确,我们的TextCoT方法也不受这种差异的影响。
与先前CoT方法的比较
我们还基于LLAVA-1.5-7B [[32]]和ShareGPT4V [[10]]进行了现有CoT方法的性能比较。比较方法包括针对LLMs的ZS-CoT [[22]]和CoT-SC [[51]],以及针对LMMs的DDCoT [[68]]和CCoT [[40]]。ZS-CoT [[22]]、DDCoT [[68]]和CCoT [[40]]都包括两个阶段,其中ZS-CoT [[22]] 使用“让我们一步一步思考”的方式。对于CoT-SC [[51]],我们采样了5条链式思考推理路径。
表2的结果表明,我们的方法显著优于这些方法。在富含文本的图像场景中,这些方法未能提高性能,原因在于它们没有解决对局部和细粒度视觉输入的需求。相比之下,我们的方法有效地利用了大型多模态模型(LMMs)的字幕和定位能力,提取全局和局部信息以进行准确回答。
消融研究
为了验证我们提出的TextCoT三个阶段的有效性,我们在表3和表4中进行了深入的消融实验。所有消融实验均基于经典的LLaVA-1.5-7B [[32]]进行,并在八个问答数据集上评估性能。接下来讨论结果。
粗定位的影响
我们首先评估了TextCoT的两阶段变体(表3(b)),第一阶段预测一个定位答案\(A_g\),第二阶段直接将\(A_g\)输入LMM。与将图像\(I_g\)和问题\(Q\)作为输入的一阶段基线方法(表3(a))相比,此变体表现更好。结果突显了答案区域线索的重要性。然而,该变体并未充分利用答案区域提示,模型仍缺乏局部细粒度视觉输入。
裁剪过程的影响
基于这个两阶段变体(表3(b)),我们进一步引入了图像裁剪操作,使LMM能够获得详细的局部信息。如表3所示,包含裁剪操作的方法(表3(c))表现更优。在与文本相关的VQA任务中的显著改进表明放大答案区域显著增强了对局部细节的理解。
图像概览的影响
由于执行裁剪操作后模型失去了全局上下文信息,只能从裁剪图像\(I_l\)中提取局部信息。为了解决这个问题,我们加入了全局图像的字幕,即我们的图像概览阶段。如表3(d)所示,全球信息的补充进一步提升了性能。这种方法通过文字描述提供全局信息,同时利用局部图像进行详细局部信息的提取。这构成了我们的最终TextCoT。
特定裁剪方法的影响
我们进一步对我们的裁剪策略进行了一系列消融研究。如表4所示,我们试验了严格依据定位区域\(A_g\)裁剪(表4(b)),将边界框按较长边对齐扩展为正方形(表4(c)),将边界框扩展为边长为较长边1.5倍的正方形(表4(d)),以及完全不裁剪(表4(e))。
实验结果表明,我们的TextCoT配置(表4(d))展现出优越的性能。这可以归因于与其它裁剪设置相比,我们的配置保留了足够的细粒度视觉信息,同时也避免了因裁剪不足而遗漏答案区域。这一结果也与我们的理念相符。
5. 局限性
我们进一步讨论了TextCoT的局限性。首先,尽管我们的方法对模型定位能力中的错误显示出一定的容忍度,但它并不适用于那些缺乏检测能力的LMM。其次,在某些复杂的表格图像中,答案经常跨越多个不同的区域,这对模型的定位能力提出了更高的要求。探索如何为这类模型精确提取局部和细粒度的视觉特征是一个有意义的研究课题。第三,我们目前的评估局限于文本领域,从而限制了我们的发现向其他模态或领域的普遍适用性。虽然我们当前的研究侧重于文本相关任务,未来的努力将旨在开发能在超越文本领域、适用于多种场景并提升性能的CoT方法。
6. 结论
本文介绍了TextCoT,这是一种针对增强LMM理解富含文本图像能力而定制的新型链式思考框架。我们的方法通过利用LMM的字幕生成和定位能力来提高富含文本图像的问答准确性,从而允许提取全局和局部的视觉信息。TextCoT与现有LMM架构无缝集成,无需额外训练即可实现即插即用的功能。基于几种先进LMM的多样化富含文本图像问答基准测试的广泛实验,持续证明了我们TextCoT的有效性和强健的泛化能力。我们的工作朝着释放LMM理解富含文本视觉数据的全部潜力迈出了重要的一步。未来,我们将专注于为甚至不具备定位能力的LMM开发方法,并增强它们理解更复杂场景的能力。
Luan B, Feng H, Chen H, et al. TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding[J]. arXiv preprint arXiv:2404.09797, 2024.
University of Science and Technology of China, Merchants Union Consumer Finance Company Limited
本文转载自公众号AIRoobt ,作者:AIRoobt
原文链接:https://mp.weixin.qq.com/s/v-cT7pF8TC8_aQuEyWew5w