检索增强型多模态思维链推理用于大型语言模型 原创 精华

发布于 2024-7-2 10:54
浏览
0收藏

​摘要:大型语言模型(LLMs)的进步使得思维链(Chain of Thought,CoT)方法受到了极大的关注,主要是因为它能够增强LLMs在复杂推理任务上的能力。此外,CoT方法的重要性还扩展到了将LLMs应用于多模态任务。然而,由于多模态样本固有的复杂性,为多模态推理选择最优CoT示例的问题在LLMs中尚未得到充分探索。在本文中,我们介绍了一种新颖的方法,通过使用检索机制来动态且自动地根据跨模态和内模态相似性选择示例,从而解决这一挑战。此外,我们采用了分层抽样方法,将示例根据类型分类成不同组,然后分别从不同组中检索示例,以促进示例的多样性。通过在两个流行的基准数据集上进行一系列实验:ScienceQA和MathVista,我们证明了我们的方法显著提高了GPT-4在ScienceQA上的性能6%,在MathVista上的性能12.9%,并且在两个数据集上提高了GPT-4V的性能2.7%,大幅提高了最先进LLMs和LMMs在复杂多模态推理任务上的性能。

1. 引言

自然语言处理(NLP)领域由于大型语言模型(LLMs)的出现而经历了显著的进步,这些模型凭借其广泛的能力重塑了许多任务的格局。一个对LLMs成功贡献很大的关键技术是链式思维(CoT)技术,这在先前的研究中已有记载(Wei et al., 2022a; Kojima et al., 2022)。这种技术在应用于多模态任务时尤其重要。其最突出的应用之一是多模态问答,这涉及文本和图像的推理(Zhang et al., 2023c; Lu et al., 2023b; Lyu et al., 2023; Li et al., 2023e)。然而,随着研究人员进一步探索CoT与LLMs的整合(Wang et al., 2022; Zhou et al., 2022; Zhang et al., 2022),选择合适的示例来指导多模态推理成为一个反复出现的挑战。由于多模态示例通常结合了文本和视觉数据的复杂性,识别最相关和最有信息量的示例是一项艰巨的任务(Bar et al., 2022; Li et al., 2023b,a)。

为了解决这个问题,我们的论文提出了一种新方法,利用检索机制动态且自动地选择示例。如图1所示,我们的方法检索到的相关且有信息量的示例可以激发LLMs的推理能力,进而得出正确答案。图3展示了我们提出的方法概览。我们的方法主要利用了跨模态相似性和模态内相似性。我们利用这些相似性来检索示例,以期通过更相关的示例增强CoT在多模态任务上的推理过程(Zhang et al., 2023a; Sun et al., 2023)。为了确保选择的示例更全面和多样化,我们创新性地使用了分层抽样(Liberty et al., 2016)。这种简单但有效的方法按顺序根据检索样本所属的组进行抽样。通过从不同组中抽样,我们旨在为LLMs提供多样化的示例,从而提高多模态推理的整体质量。

检索增强型多模态思维链推理用于大型语言模型-AI.x社区


图1:我们的MM-Retrieval方法根据问题动态检索示例。与CoT相比,它具有更好的适应性,能够激发LLMs的推理能力。红色的D1、D2表示根据问题检索到的示例,而蓝色的D1、D2表示不考虑问题的固定示例。

(图片说明:- 左上角(Problem):提出了一个问题,要求找出图中正方形的值,答案是2。

- 左下角(CoT-2-shots):展示了传统的链式思维(CoT)方法,使用了两个固定的示例(D1和D2),无论问题是什么,这些示例都不会变化。图中红色的D1和D2分别代表了固定的示例:

- D1示例:计算购买烤盘、冰激凌勺和砂锅盘所需的钱数。

- D2示例:找出国家中飞机总部所在城市的最大城市,答案是东京。

- 右侧(MM-Retrieval):展示了我们的方法如何动态地基于问题检索示例:

- D1示例:计算图中角度x的大小。

- D2示例:找出图表中最小的独立条的值。

在MM-Retrieval方法中,这些检索到的示例被整合到提示和测试问题中,作为LLMs的输入。图中绿色高亮部分显示了解决问题的详细过程,包括将图中的形状赋值并通过方程求解,最终得出答案为2。

图例说明:

- 红色的D1、D2表示根据问题动态检索到的示例。

- 蓝色的D1、D2表示无论问题如何变化都固定的示例。

图1的文字说明强调了MM-Retrieval方法的动态适应性和对LLMs推理能力的刺激效果,优于传统的固定示例方法。)

为了评估我们提出的方法的有效性,我们在两个基准多模态问答数据集ScienceQA(Lu et al., 2022)和MathVista(Lu et al., 2023a)上进行了广泛的实验。这些实验表明,我们的方法大大提高了LLMs的性能,在多模态推理任务上建立了新的最先进水平。如图2所示,在ScienceQA和MathVista数据集上,我们的方法显示了显著的改进。对于ScienceQA数据集,基于ChatGPT和GPT-4的检索方法分别比最先进的Chameleon高出4.8%和4.4%。随着更多示例的加入,基于ChatGPT和GPT-4的方法的最佳性能可以达到86.4%和92.5%。对于GPT-4V,我们的方法相较于零样本设置可以实现2.7%的平均准确率提升。


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

图2:在ScienceQA(Lu et al., 2022)和MathVista(Lu et al., 2023a)的不同类别上的结果。我们提出的方法在GPT-4基础模型上相比于之前的基线模型,包括CoT(Lu et al., 2023b)、PoT(Lu et al., 2023a)和Chameleon(Lu et al., 2023b),取得了显著的提升。

此外,我们的方法在MathVista数据集上也表现出优越的性能。基于ChatGPT和GPT-4的方法分别获得了8.4%和13.6%的显著提升。此外,我们的方法还可以进一步提升最先进的LLM - GPT-4V的性能,使其在MathVista上的整体准确率提高2.7%,这证明了我们方法的有效性。

我们还对我们方法的各部分贡献进行了全面的实验,包括视觉信息、检索机制和分层抽样。此外,我们还进行了详细的分析,研究了不同数量的示例对结果的影响,提供了我们的方法在多模态任务中与LLMs协同工作的宝贵见解。

2. 相关工作

2.1 检索增强生成(RAG)用于LLMs

检索增强生成(RAG)代表了通过整合外部知识源来增强模型生成能力的重要进展。早期的工作如REALM(Guu et al., 2020)和RAG(Lewis et al., 2020)介绍了将外部文档融入生成过程的基础方法。后续研究将检索增强范式扩展到多模态环境,如MuRAG(Chen et al., 2022)和REVEAL(Hu et al., 2022),它们利用来自外部来源的文本和视觉信息来增强语言生成。此外,最近的研究如FiD-Light(Hofstätter et al., 2022)和REPLUG(Shi et al., 2023)则集中于提高检索增强系统的效率和效果,以及探索上下文中的检索增强机制(Ram et al., 2023;de Jong et al., 2023)。

2.2 上下文学习(ICL)

上下文学习(ICL)利用LLMs在嵌入上下文中的少量示例基础上完成任务(Devlin et al., 2019;Radford et al., 2019;Brown et al., 2020;Chowdhery et al., 2022),在NLP和复杂的数学推理中显示出效果(Wei et al., 2022b)。ICL的设置包括使用任务指导和示例生成LLMs的响应。它对提示结构、示例选择和示例顺序敏感(Zhao et al., 2021;Wang et al., 2023a;Fu et al., 2022)。ICL的应用扩展到多模态任务,包括图像分割、合成和文本到语音合成(Bar et al., 2022;Wang et al., 2023b,c,e;Tsimpoukelli et al., 2021;Alayrac et al., 2022),并在图结构等结构化空间中显示出潜力(Huang et al., 2023)。

2.3 链式思维推理(CoT)

链式思维(CoT)推理指导LLMs逐步推理,提高了在算术、符号和逻辑任务上的性能(Wei et al., 2022b;Kojima et al., 2022)。方法包括采样多个推理路径(Wang et al., 2022),将复杂问题划分为子问题(Zhou et al., 2022),以及动态选择用于少样本提示的示例(Zhang et al., 2022;Shi et al., 2022)。除了文本数据,CoT还适用于表格数据(Ziqi和Lu, 2023)。此外,其潜力在多模态环境中得到了探索,通过语言和视觉的融合展示了增强的推理能力(Zhang et al., 2023c;Lu et al., 2023b,c)。研究如(Zhang et al., 2023c)提出了一个两阶段的CoT框架,用于多模态任务,显著提高了在ScienceQA等基准上的推理准确性。Chameleon(Lu et al., 2023b)引入了插拔式模块,用于大型多模态模型(LMMs),通过结合不同的工具实现复杂推理。

3. 方法

我们的方法基于CoT上下文学习范式,旨在有效利用LLMs。对于每个输入查询,我们希望利用一组相关的CoT示例来增强LLM的推理能力。为此,我们引入了一种新方法,使用检索机制动态且自动地选择示例,并将视觉知识融入提示中。图4详细说明了我们的方法。我们方法的核心是提取跨模态相似性和模态内相似性,在测试问题q的文本上下文qt和视觉上下文qv与示例池Q={q1,...,qn}中的示例之间进行交叉比较。我们方法的另一个独特特征是引入了分层抽样。通过根据示例的固有属性将其分类为不同组,我们旨在扩展所选示例的多样性。从不同组中检索示例确保LLMs接收到多方面的示例,从而增强多模态推理的鲁棒性。

检索增强型多模态思维链推理用于大型语言模型-AI.x社区


图3:我们提出的多模态检索方法概述。我们采用了跨模态检索和内模态检索(文本模态和图像模态检索),从示例池中获取相关的示例作为检索示例。然后,这些检索到的示例与提示和测试问题集成在一起,作为LLMs的输入。

(注释:1. 示例池(Demonstration Pool):

- 包含多个问题及其选项和相关图像。例如,问题1是“以下三种物体有哪些共同的属性?”,选项包括透明、毛茸茸、黄色,并附有对应的图像。

2. 测试问题(Test Question):

- 包含待回答的问题及其选项和相关图像。例如,测试问题是“以下两种物体有哪些共同的属性?”,选项包括粗糙和有弹性,并附有对应的图像。

3. MM-检索模块(MM-Retrieval Module):

- 包括三个检索器:跨模态检索器(Cross-modal Retriever)、文本模态检索器(Text-modal Retriever)和图像模态检索器(Image-modal Retriever)。

- 这些检索器根据测试问题从示例池中动态检索相关的示例。

4. 示例构建(Demos Construction):

- 构建检索到的示例集,包括从示例池中检索到的具体问题及其答案。例如,Demo 1的问题是“以下三种物体有哪些共同的属性?”,答案是黄色。

5. 检索到的示例(Retrieved Demos):

- 包括检索到的多个示例问题及其相关信息。

6. 大型语言模型(Large Language Model):

- 将测试问题、检索到的示例和提示结合起来输入到大型语言模型中,以生成最终答案。

7. 最终答案(Test Answer):

- 生成包含推理过程的最终答案。例如,最终答案是“两个物体的共同属性是粗糙的,因此答案是A”。

通过这种方法,我们能够动态检索和集成相关示例,从而提升LLMs在多模态任务中的推理能力。)


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

图4:我们多模态检索方法的详细说明,其中我们使用模态内相似性和跨模态相似性从示例池Q中抽样示例D。

(注释:1. 测试问题(Test Question):

- 包含待回答的问题及其选项和相关图像。例如,测试问题是“以下两种物体有哪些共同的属性?”,选项包括粗糙和有弹性,并附有对应的图像(例如木头和菠萝)。

2. MM-检索模块(MM-Retrieval Module):

- 包括四个检索器:

- 文本模态检索器(Text-modal Retriever):基于文本相似性检索相关的文本示例。

- 跨模态检索器(Cross-modal Retriever):包括文本-图像跨模态检索器(Text-image Cross-modal Retriever)和图像-文本跨模态检索器(Image-text Cross-modal Retriever),基于跨模态相似性检索相关示例。

- 图像模态检索器(Image-modal Retriever):基于图像相似性检索相关的图像示例。

3. 示例池(Demonstration Pool):

- 包含多个问题及其选项和相关图像。例如,问题1是“以下三种物体有哪些共同的属性?”,选项包括透明、毛茸茸、黄色,并附有对应的图像;问题2是“火山渣是哪种类型的岩石?”,选项包括火成岩、变质岩、沉积岩。

4. 检索到的示例(Retrieved Demos):

- 包括检索到的多个示例问题及其相关信息。例如,检索到的问题1是“以下三种物体有哪些共同的属性?”,选项包括透明、毛茸茸、黄色,并附有对应的图像。

图示中不同颜色的箭头表示不同类型的相似性:

- 绿色箭头表示文本相似性(Text Similarity)。

- 蓝色箭头表示图像相似性(Image Similarity)。

- 粉色箭头表示跨模态相似性(Cross-modal Similarity)。

通过这些检索器,我们可以从示例池中动态地抽样相关的示例D,这些示例将与测试问题结合,作为输入提供给大型语言模型(LLMs),从而提升模型在多模态任务中的推理能力。)

3.1 将视觉信息纳入LLMs

我们的方法适用于LLMs和LMMs,我们的任务是包含图像和相应文本问题的多模态问答任务。对于LLMs来说,如果不通过辅助视觉专家模型将图像模态转换为文本模态,很难正确回答。因此,LLM通过视觉信息模型获取问题的视觉信息非常重要。按照Chameleon和MathVista的实现,我们的视觉信息模型主要包括两部分:

- 图像描述:我们使用图像描述模型获取给定图像的文本描述。图像描述结果表示为{Vc},它是表示图像主要内容的文本片段。

- 光学字符识别(OCR):除了图像描述系统,我们还使用OCR系统识别给定图像中的文本字符,检测到的文本表示为{Vo}。

因此,我们使用的视觉信息表示为V={Vc, Vo},这是生成的图像描述和OCR系统检测到的文本的连接。

3.2 检索机制

假设我们有一个待回答的测试示例q,它包括视觉上下文qv(通常是图像)和文本上下文qt(通常是问题描述)。Q中的每个问题与q具有相同的组成部分,所以qi={qvi, qti},其中qi∈Q。同时,我们还有一个多模态问题集合Q={q1,...,qn},我们可以从中收集示例帮助LLM回答测试示例q。使用检索函数,从Q中提取示例形成检索到的示例集D。一般的检索过程可以表示为:


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

其中,Fe表示用于编码q的编码器模型,Fe(q) ∈ R1×h 和 Fe(qi) ∈ R1×h。k表示我们从Q中采样与q具有最大余弦相似性的前k个示例。然后,采样的前k个示例作为示例。

具体来说,考虑到多模态设置中检索的复杂性,我们通过分别使用qv和qt从Q中检索示例来扩展公式1:


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

公式中的Fk1(qv, Qv)表示我们根据Fe(qv) R1×h和Fe(qiv) R1×h之间的余弦相似性,从 Q中检索前k1个示例,这表示测试问题q 的视觉上下文与示例池中的示例 qi 之间的比较,其他同理。需要注意的是, k = ∑i=14 ki 。公式2右侧的前两个项表示基于模态内相似性的检索,而后两个项表示跨模态检索。Fe可以是任何适当的编码器,用于获取qt(文本编码器)和qv(视觉编码器)的嵌入。

3.3 抽样方法

此外,为了在我们的示例中保持多样性和相关性,我们采用了分层抽样(Liberty et al., 2016)。这种方法允许我们从基于跨模态和模态内相似性检索到的四个组中抽样示例。为了简化,我们将Fk1(qv, Qv)简化为DI2Ik1,Fk2(qt, Qt)简化为DT2Tk2,Fk3(qv, Qt)简化为DI2Tk3,Fk4(qt, Qv)简化为DT2Ik4。分层抽样过程S如下:


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

其中,dk1i ∈ DI2Ik1,dk2i ∈ DT2Tk2,dk3i∈ DI2Tk3,dk4i∈ DT2Ik4。此外,为了适应多模态数据的不同复杂特性(例如不同领域的示例具有不同的性质),我们提出在处理不同类型问题q时自适应使用分层抽样。具体来说,我们使用经验函数σ来决定是否采用分层抽样(即σ可以是开发集上的性能Δ或其他启发式方法)。详细的抽样策略如表3所示。


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

3.4 最终预测

通过检索到的示例,我们的下一步是预测给定测试问题q的最终答案。为此,我们将测试问题q与检索到的示例集D以及视觉信息V结合起来。目标是为LLM提供一个包含初始问题和相关示例见解的丰富上下文。问题和示例的结合可以表示为V ⊕ D ⊕ q,这是LLM的提示。当我们将这个提示输入LLM时,我们得到最终结果:

Answer = λ(V ⊕ D ⊕ q)

在这个公式中,λ代表LLM的预测过程。这个最终预测步骤至关重要,因为它体现了我们建立的整个过程。它确保LLM考虑到原始问题和示例集中的额外信息,以生成一个信息丰富且准确的答案。

4. 实验

4.1 实验设置

数据集

在实验中,我们使用了两个用于多模态CoT推理的基准数据集:

1. ScienceQA (Lu et al., 2022):这是一个综合性基准数据集,旨在评估大型语言模型的多模态推理能力。

2. MathVista (Lu et al., 2023a):这个数据集用于评估LLMs和LMMs在视觉上下文中的数学推理能力。

模型

在实验中,我们通过OpenAI API使用了ChatGPT (OpenAI, 2022)、GPT-4 (OpenAI, 2023)和GPT-4V (OpenAI, 2023)。我们使用了GPT-3.5-TURBO作为ChatGPT的版本,而GPT-4用于GPT-4。对于GPT-4V的评估,我们使用了GPT-4-VISION-PREVIEW。

实现细节

用于编码CoT示例的文本和视觉上下文的TEXT-ENCODER和VISUAL-ENCODER是预训练在大规模语料和图像上的模型。具体来说,对于模态内相似性,我们分别使用SentenceBERT (Reimers and Gurevych, 2019)和ViT (Dosovitskiy et al., 2021) (ViT-base-patch16-224)来编码文本和图像。对于跨模态相似性,我们使用CLIP (Radford et al., 2021)来编码文本和图像。具体而言,我们遵循了Chameleon的方法,将元数据和知识检索结果与当前问题连接起来作为我们的基线。我们的方法基于此基础进一步开发了基于文本的问题方法。为了整合视觉上下文,我们分别使用BLIP (Li et al., 2023c)和GPT-4V (OpenAI, 2023)为ScienceQA和MathVista获取图像描述。我们选择了ScienceQA的训练集作为示例池。至于MathVista,我们在test-mini上评估了性能。由于测试集没有发布答案且数量较多,我们选择使用它作为示例池。由于MathVista的测试集中没有答案或推理过程,我们使用GPT-4V零样本的响应作为推理的基础。具体来说,对于GPT-4V MM-Retrieval,我们的文本提示与LLMs相同,但我们会在文本提示后添加问题的图像。

表1:ScienceQA上的实验结果(Lu 等,2022)。我们通过与各种基线模型(包括监督和非监督模型)进行比较来评估系统的性能。结果表明,我们提出的CoT-MM-Retrieval方法在平均准确率和几乎所有问题类别上都优于之前的最先进模型。需要注意的是,*表示我们方法的最佳结果,此时我们使用了更多的示例。


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

4.2 结果

在我们针对ScienceQA数据集(Lu et al., 2022)进行的实验中,如表1所示,对各种模型在不同问题类型上的性能进行了评估。基线模型的结果取自ScienceQA排行榜2,在这里我们根据是否明确在ScienceQA训练集上进行训练来区分监督系统和无监督系统。我们的方法称为CoT-MM-Retrieval,使用了两个示例,提供了与Chameleon(Lu et al., 2023b)公平的比较,而CoT-MM-Retrieval*表示我们在更多示例情况下的最佳性能。

对于基于ChatGPT的模型:

1. Chameleon (ChatGPT)(Lu et al., 2023b)略微超过了基础ChatGPT CoT,平均准确率为79.9%。

2. 我们的方法ChatGPT CoT-MM-Retrieval基于检索增强的ChatGPT,平均准确率达到了84.7%,比之前的最先进Chameleon高出4.8%。

3. 其中,ChatGPT CoT-MM-Retrieval*取得了最佳性能,平均得分为86.4%。

对于基于GPT-4的模型:

1. Chameleon (GPT-4)(Lu et al., 2023b)作为之前的最先进模型,平均得分为86.5%。

2. 我们的方法GPT-4 CoT-MM-Retrieval*超过了Chameleon (GPT-4) 6%,平均得分达到了92.5%。它在SOC和NO等问题类型上设立了新的最先进水平,得分分别为97.2%和94.9%。

对于基于GPT-4V的模型:

我们的方法GPT-4V CoT-MM-Retrieval利用了问题图像,其平均得分比零样本的GPT-4V高出2.7%,表明我们的方法不仅适用于LLMs,也适用于LMMs。

在我们针对MathVista数据集(Lu et al., 2023a)进行的实验中,如表2所示,我们的方法称为CoT-MM-Retrieval,使用了两个示例,提供了与CoT和PoT公平的比较。

对于基于ChatGPT的模型:

我们的方法ChatGPT CoT-MM-Retrieval比ChatGPT CoT高出8.4%,平均得分为41.6%。

对于基于GPT-4的模型:

我们的方法GPT-4 CoT-MM-Retrieval分别比ChatGPT CoT和ChatGPT PoT高出13.6%和12.9%。

对于基于GPT-4V的模型:

我们的方法GPT-4V CoT-MM-Retrieval在零样本的平均得分上比GPT-4V高出2.7%,在14个指标中有8个超过了零样本。值得注意的是,在MathVista,由于数学问题的难度,目前的GPT-4V在平均得分上无法超过人类。

4.3 消融研究

我们对不同检索方法和示例数量(少样本学习中的shots)在方程2中的影响进行了分析。结果如图5所示。


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

我们探讨了四种检索方法:1)文本到文本(T2T),2)文本到图像(T2I),3)图像到文本(I2T),4)图像到图像(I2I),并随着示例数量的增加(从0到4,分别为k1, k2, k3, k4)研究其对模型性能的影响。提供了不同问题类型的性能指标,使我们能够辨别不同类别中的模式和变化。图5的结果首先表明,在上下文中添加示例可以提高整体准确率,特别是在ScienceQA和MathVista中。从图5中我们还可以观察到:

1. 文本到文本检索(T2T):随着示例数量的增加,T2T检索的准确率在ScienceQA上保持相对稳定,平均准确率在80.8%到81.3%之间。而在MathVista上,平均准确率在35.6%到40.6%之间。该方法的最高准确率是在ScienceQA上使用1个示例(81.3%)和在MathVista上使用2个示例(40.6%)时达到的,这表明增加更多示例并不总能保证性能提升。

2. 文本到图像检索(T2I):其表现与T2T类似,在ScienceQA上的平均准确率在80.4%到81%之间,在MathVista上的平均准确率在36.2%到40.1%之间。对于这种方法,最高准确率是在ScienceQA上使用2个示例(81%)和在MathVista上使用3个示例(40.1%)时达到的。

3. 图像到文本检索(I2T):该方法的准确率变化比前两种略大,在ScienceQA上的准确率在81.4%到82%之间,在MathVista上的准确率在31.7%到38.8%之间。这里,2个示例在ScienceQA上提供了最佳平均表现(82%),而在MathVista上使用1个示例时(38.8%)达到了最高准确率。

4. 图像到图像检索(I2I):这种方法在MathVista上的表现与文本到文本检索相似,平均准确率在34.8%到39.8%之间。该方法的最高准确率是在使用2个示例(39.8%)时达到的。在ScienceQA上,这种检索方法展示了最有趣的趋势。随着示例数量的增加,准确率显著提高,从1个示例时的82.8%提高到4个示例时的85.9%。在ScienceQA上,G1-6类型的表现始终很好,准确率通常在84%以上。


检索增强型多模态思维链推理用于大型语言模型-AI.x社区

检索方法的选择和示例数量在确定模型性能方面起着关键作用。我们的消融研究结果表明,我们提出的检索策略在不同模态和不同示例数量上具有稳健性和适应性。值得注意的是,不同问题类型中的一致性能强调了我们方法在增强LLMs推理能力方面的有效性。

5 结论

本文提出了一种新颖的方法来应对为大语言模型(LLMs)进行多模态推理时选择合适的示例的问题(Lu 等,2022)。通过将检索机制与LLMs相结合并强调文本和图像之间的模态连接,我们的方法旨在提高LLMs在多模态链式思维(CoT)(Wei 等,2022b;Zhang 等,2023c)推理中的效率。此外,我们的方法引入了分层抽样,确保LLMs能够接触到多样且全面的示例。在对ScienceQA数据集(Lu 等,2022)和MathVista数据集(Lu 等,2023a)的实验中,我们的方法持续优于现有的最先进模型,如Chameleon(Lu 等,2023b)和ChatGPT PoT(Lu 等,2023a)。这些实验证实了我们的假设,即将LLMs与我们提出的定制检索机制相结合,可以显著提升多模态推理性能。随着CoT技术在自然语言处理社区中日益受到关注,我们的工作强调了有效示例选择的重要性。

未来的研究应着重于优化检索过程,并将本研究中开发的方法扩展到其他多模态任务中。这些任务可能包括LLMs输出涵盖多种模态的任务,如文本到图像和文本到视频生成(Liu 等,2023a;Wang 等,2023d)。此外,将其应用于如医疗领域等专业领域(Li 等,2023d),也是一个有前途的方向。同时,在开发越来越复杂的多模态LLMs,特别是那些采用CoT推理的LLMs时,解决幻觉问题也非常重要(Ji 等,2023;Zhang 等,2023b)。我们相信我们的工作为这些未来的探索奠定了坚实的基础。

局限性

本文提出了一种通过多模态检索增强LLMs进行CoT示例的新方法。然而,我们的工作存在一些局限性。首先,我们的方法仅在两个数据集上进行了测试:ScienceQA和MathVista。这两个数据集主要涉及科学和数学主题,不能广泛覆盖其他复杂的推理任务。因此,我们的方法还应在其他复杂推理任务上进行评估。其次,由于资源限制,我们仅在闭源系统上进行了实验,未在开源LLMs上进行实验,这使得我们的结果难以复制且成本高。此外,由于这些闭源LLMs的性质,我们无法完全消除数据污染的风险。因此,我们的方法还应在更多具代表性的语言上进行全面评估。

Liu B, Lyu C, Min Z, et al. Retrieval-augmented multi-modal chain-of-thoughts reasoning for large language models[J]. arXiv preprint arXiv:2312.01714, 2023.


本文转载自公众号AIRoobt ,作者:AIRoobt

原文链接:​​https://mp.weixin.qq.com/s/bq1hQJ23DAQDJN9j2uNh6g​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐