电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力

sbf_2000

发布于 2024-7-11 09:20

浏览

0收藏

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

一、结论写在前面

下面介绍的论文来自：电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学。

论文标题：Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

论文链接：https://arxiv.org/pdf/2406.17294

代码和数据：https://github.com/HZQ950419/Math-LLaVA。

LLMs在文本数学问题解决方面展示了令人印象深刻的推理能力。然而，现有的开源图像指令微调数据集，每个图像包含有限的问题-答案对，未能充分利用视觉信息来增强多模态LLMs（MLLMs）的数学推理能力。

为了填补这一空白，论文通过从24个现有数据集中收集40K高质量图像及其问题-答案对，并合成320K新对，创建了MathV360K数据集，该数据集增强了多模态数学问题的广度和深度。论文引入了基于LLaVA-1.5的Math-LLaVA模型，该模型通过MathV360K进行微调。

这一新颖方法显著提升了LLaVA-1.5的多模态数学推理能力，实现了19个百分点的提升，并在MathVista的迷你测试分组上与GPT-4V表现相当。此外，Math-LLaVA展示了增强的泛化能力，在MMMU基准上取得了显著进步。论文的研究强调了数据多样性和合成在提升MLLMs数学推理能力中的重要性。

二、论文的简单介绍

2.1 论文的背景

多模态数学推理任务要求模型解释多样化的图像并应用高级推理技能。尽管开源的多模态大型语言模型（MLLMs）如LLaVA和Mini-GPT4在视觉问答任务上表现良好，但它们在解决涉及视觉内容的复杂数学问题方面仍不及专有的MLLMs。

提升多模态大型语言模型（MLLMs）数学推理能力的两种常见方法是提示方法和微调方法。提示方法通过精心设计的提示利用MLLMs的潜在能力，而微调方法则使用从现实世界或高级LLMs（如GPT-4）生成的合成数据中收集的推理数据来调整模型参数。然而，现有的开源图像指令微调数据集，每张图像包含的问答对数量有限，未能充分利用视觉信息来增强MLLMs的多模态数学推理能力。

为了填补这一空白，论文从24个现有数据集中选取了40K张高质量图像及其对应的问答对。这些图像和问题涵盖了代数、算术、几何、逻辑、数值常识、科学和视觉问答等多个学科。选取标准基于图像清晰度和理解复杂性。此外，论文提出了一种流程，基于这40K张图像和种子查询合成320K个新问答对。

2.2 数据合成

现有的开源图像指令微调数据集，每张图像包含有限的问答对，未能充分发掘视觉信息以增强MLLM的多模态数学推理能力。

为此，论文提出MathV360K，一个基于40K精选图像和多子领域种子问答对合成的强大数据集。如图1左侧所示，论文首先从24个开源多模态问答数据集中，根据图像清晰度和理解复杂度筛选出40K高质量数据点。在第二步，如图1右上方所示，论文尝试充分挖掘图像的视觉信息以生成额外问题。数据生成流程包括创建多样化的新问题以充分发掘视觉信息、更复杂的问题以进一步提高推理能力，重述问题和未明确指定的问题以提高模型的鲁棒性。通过数据生成流程，论文为选定的40K数据点收集了36万条高质量且多样化的指令调优数据，以增强LLaVA-1.5开源模型的图像理解和数学推理能力。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

图1：提出的多模态问答数据选择与数据增强的整体流程图。论文的数据选择依赖于微调后的ViT作为图像分类器。数据生成过程依赖于视觉-语言模型

2.2.1 多模态推理数据选择

2.2.1.1 源数据

论文收集了24个视觉问答和多模态数学推理数据集，每个数据集针对特定的任务类型和视觉内容。论文聚焦于需要高级推理的五种问题任务类型来编译源数据集：图表问答（FQA）、几何问题解决（GPS）、数学文字问题（MWP）、教科书问答（TQA）和视觉问答（VQA）。附录中的表5展示了每个源数据集的任务类型和视觉内容的更多细节。

每个多模态训练样本包含三个组成部分：一张图像，一个文本问题，以及一个真实答案。从这种数据格式中，模型旨在捕捉视觉信息和问题语义以推理出最终答案。

2.2.1.2 图像过滤与比例分配

在获取24个源数据集后，论文根据以下标准有意识地从原始图像中选择数据：（1）图像的清晰度，因为质量差的图像会引入噪声并干扰图像语义的学习；（2）图像的理解复杂度，从简单到复杂不等。通过将图像分类为不同的复杂度级别并按比例选择，论文可以形成一个具有适当难度分布的训练集；（3）相应文本问题数据的质量，确保难度与图像的理解复杂度相匹配。

论文微调了两个Vision Transformer（ViT）模型，分别用于图像清晰度和图像理解复杂度的分类。由于缺乏标注的图像数据，论文首先从源数据集中均匀且随机地采样了10K张图像。这些图像使用GPT-4V（OpenAI）进行清晰度和理解复杂度的标注，论文设计的提示语如图2所示。对于图像清晰度，标签0表示模糊、质量差的图像，标签1表示清晰、质量好的图像。图像理解复杂度由对象数量、它们的位置关系、是否需要数学计算、细节级别、纹理和材质属性决定。图像被分为0、1、2和3四个评分，评分越低表示视觉上下文理解越容易。基于这10K张标注图像，论文使用交叉熵损失训练了两个ViT模型，并初始化了全连接层进行分类。论文首先使用微调后的图像清晰度分类器对所有源训练数据集图像进行分类，并过滤掉标签为0的图像。表5显示了过滤前（即训练图像）和过滤后（即清晰图像）的图像数量。

接下来，论文使用图像理解复杂度分类器对筛选后的图像进行评分。表5显示，大多数图像被分类为中等复杂度，其次是简单，最后是最复杂。考虑到简单图像更容易学习，而复杂图像更难且需要更多参考样本，论文采用从简单到复杂的渐进比例对前三个复杂度类别进行采样。由于评分3的图像最为稀缺，论文收集了所有这些图像。论文根据总体复杂度2:3:4:1的比例选择了40K数据点，确保从每个源数据集中均匀选择不同复杂度的样本。因此，论文获得了40K高质量（1, Q, A）真实数据点，这些数据点在图像信息和问题难度上具有多样性和渐进性。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

图2：论文在GPT-4V API中用于图像标注的提示模板。图像清晰度被视为二元分类，而图像理解复杂度被视为多分类

2.2.2 数据增强

2.2.2.1 挖掘图像以生成QA

在选择了40K多模态推理数据后，论文观察到每张图像通常对应有限的问题。如图1的表格图像所示，原始问题往往仅关注局部算术差异。然而，还可以提出关于总体平均值、连续变化等问题，表明仅通过一个问题并未充分利用图像的视觉信息。因此，论文可以通过为每张图像生成更多的问题-答案对来进一步增强可用真实数据。

论文使用GPT-4V根据输入图像和原始问题生成额外的问题。如果以零样本方式生成问题，它们往往聚焦于单方面的视觉场景，缺乏推理和数学技能。对于来自特定任务的图像，如几何图形，应提出更多任务特定的问题。因此，论文采用少样本示范方法让GPT-4V生成新问题。

对于属于某一类别（FQA、GPS、MWP、TQA、VQA）的图像，论文首先将每个任务类别内的源数据集问题内部聚类为五个类别。具体来说，使用TF-IDF获取文本问题的特征，并使用K-Means进行聚类。如图4所示，论文以IconQA为例。在训练集中对问题进行聚类后，每个聚类内部代表一种特定的提问格式和模式，可供参考。通过从属于某个任务类型的每个源数据集的每个聚类中随机抽取一个问题来构建示范。

生成输入图像新问题的提示如图3所示。这种方法确保新生成的问题与原始参考问题的分布一致，同时提高多样性。通过这种方法，论文基于选定的40K数据点生成了200K个新的问题-答案对。

2.2.2.2 原始问题增强

论文设计了提示来增强原始问题，如图5所示。使用GPT-4V，论文生成了40K个更复杂的问题、40K个简化的问题和40K个改写的问题。增强主要集中在以下方面：

复杂性。更复杂的推理样本可以增强微调LLMs（大型语言模型）的推理能力。论文的第一种方法是在原始图像和相应询问的基础上创建更复杂的问题。

逻辑一致性。鲁棒的多模态大型语言模型（MLLMs）应对给定图像中的相似内容提供一致的回答。论文采用GPT-4V，通过不同方式提问相同问题，确保答案不变。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

图3：论文使用的GPT-4V API提示模板为每个输入图像生成额外问题。演示通过从每个源数据集的每个集群中随机抽取一个问题构建，以适应特定任务类型

语义欠规范。鲁棒的MLLMs必须处理语义欠规范问题，即语言信号仅传达了成功交流所需的部分信息。因此，论文在不影响与图像结合的语义理解的前提下，简化了原始问题。

2.3 实验

2.3.1 模型与训练

论文采用LLaVA-1.5架构作为基础模型，主要包含Vicuna-v1.5语言模型（Team, 2023）和预训练的Vision Transformer（ViT）作为图像编码器。为了保持基础模型卓越的视觉感知和描述能力，论文使用提出的MathV360K指令调优数据集对LLaVA-1.5-13B进行微调。该数据集中多样的问题模式和丰富的视觉内容增强了模型的多模态数学推理能力，同时保持其通用的视觉-语言理解技能。

2.3.2 评估与指标

论文采用零样本方式，使用MathVista的minitest子集来评估论文的模型。该minitest子集包含1000个样本，其中包括540道多项选择题和460道需要以整数、浮点数或列表形式自由作答的问题。Math-Vista充分评估了MLLMs在多模态数学技能方面的能力，涵盖代数推理（ALG）、算术推理（ARI）、几何推理（GEO）、逻辑推理（LOG）、数值常识（NUM）、科学推理（SCD）和统计推理（STA）。此外，Math-Vista的问题可以分为以下子集：FQA、GPS、MWP、TQA和VQA。在评估过程中，论文首先利用GPT-4从响应中提取预测选项或答案，然后报告答案准确性，即判断最终答案是否与标准答案匹配。此外，论文还使用MMMU基准来评估论文模型的增强泛化能力。

MMMU基准包含900个评估样本，涵盖六个核心学科：艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程，适合评估MLLMs推理能力的泛化性。

2.3.3 实施细节

论文利用GPT-4V（GPT-4 Vision Preview）进行数据生成过程。为了对图像清晰度和理解复杂度进行分类，论文微调了两个ViT-Large-Patch16-224模型，每个模型的学习率为2e-4，训练周期为5个epoch。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

图 4：T-SNE 对 K-Means 的可视化。论文以 IconQA 为例。每个集群的提问格式可以作为参考，用于生成类似视觉内容的新问题

对于 LLaVA-1.5-13B 模型，输入图像分辨率设置为 336 乘 336 像素。投影线性层和语言模型均可训练。在微调阶段，论文设置学习率为 2e-5，采用批量大小为 16，并使用配备 80GB 内存的 A800 GPU 进行 2 个周期的微调。

2.4 结果与分析

2.4.1 主要比较：MathVista

论文在 MathVista 基准的 minitest 分割上比较了 Math-LLaVA 与其他多模态语言模型（MLLMs），结果如表 1 所示。如图所示，开源 MLLMs 如 miniGPT4、instructBLIP和 LLaVA-1.5-13B 在多模态数学方面表现不佳，总体准确率低于 30%。

与基础模型 LLaVA-1.5-13B 相比，其多模态数学能力较差，Math-LLaVA 实现了 46.6% 的总体准确率，显著提升了 19%。更令人惊讶的是，提出的 Math-LLaVA 模型超过了闭源模型 Gemini 1.0 Pro和 Claude 3 Haiku，甚至达到了与 GPT-4V（OpenAI）相当的性能，最强大的闭源MLLMs。

Math-LLaVA在GPS子集上达到了57.7%的准确率，超过了G-LLaVA-13B（Gao et al., 2023），后者已在170K高质量的几何图像-标题和问题-答案对上进行了训练。Math-LLaVA的优越性能表明，高质量、多样化的多模态问题-答案对的数据选择和合成在提高MLLM的多模态数学推理能力方面是有效的。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

图5：在论文的GPT-4V API中使用的提示模板，用于从原始问题文本生成更复杂、逻辑一致和欠规范的问题

2.4.2 Math-LLaVA的泛化能力

提出的Math-LLaVA模型在多模态数学推理任务中展示了出色的性能。为了评估其泛化能力，论文使用包含各种学科和领域的MMMU基准进行了评估实验。结果如表2所示。仅使用选定的数据，Math-LLaVA在科学子集上的性能有所下降。

然而，论文可以观察到，在MathV360K上微调的Math-LLaVA模型在所有六个子领域上都能显著超越基础模型LLaVA-1.5-13B，以及其他几个开源MLLMs。这种优越性能突显了其向下的多模态理解和推理任务的泛化能力。此外，使用论文的合成数据进行微调的过程并没有削弱模型在其他领域的推理能力；相反，它增强了其泛化能力。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区

表1：与MathVista基准测试mini集上的基准对比。基准结果来自Lu et al. (2023)。"表示论文复现的LLaVA-1.5-13B结果。闭源和开源MLLMs中的最佳结果以粗体显示。MathVista分为两种方式：任务类型或数学技能，论文报告每个子集的准确性

2.4.3 对合成数据集的过拟合问题

提出的数据合成流程为每张图像生成额外的问答对，以增强MLLMs的数学推理能力。直观上，论文应该探究所提出的模型Math-LLaVA是否在生成的问答对上发生过拟合。如果发生过拟合，Math-LLaVA可能会记忆或检索图像信息，而不需要任何视觉输入。

为了检查这一点，论文比较了Math-LLaVA在数据合成前后的性能，分别称为Math-LLaVA-DS和Math-LLaVA，在MathVista上仅使用文本输入进行测试。如表3所示，Math-LLaVA在没有视觉信息的情况下进行推理时，在MathVista上表现出与Math-LLaVA-DS相似的性能，约为32.0%。此外，仅使用文本数据对Math-LLaVA进行微调也得到了类似的观察结果。这表明Math-LLaVA模型并未在合成的问答对上发生过拟合。

有趣的是，论文也观察到，仅使用文本输入时，LLaVA-1.5-13B在MathVista上的准确率为23.3%。潜在的原因，如(Chen et al., 2024b)所探讨的，可能是MathVista中的许多样本不需要视觉内容，并且在LLMs和MLLMs的预训练过程中可能发生了无意中的数据泄露。

2.4.4 合成数据的有效性

为了验证数据选择和提出的数据增强策略的有效性，论文对MathV360K的各个组件进行了独立实验。首先，论文在源数据集中随机抽取40K个数据点对LLaVA-1.5模型进行微调，不进行任何选择，以展示数据过滤和比例调整的效果。

随后，论文分别将选定的40K数据点与使用四种增强方法生成的数据结合：为QA生成挖掘图像（AskImg），提出复杂问题（CompQ），重新表述问题为了逻辑一致性（RephQ），以及简化问题以解决不明确性（SimpQ）。表4展示了不同增强组合在MathVista上达到的准确率。结果表明，论文的数据合成方法，结合了数据选择和每种增强方法，取得了更好的性能。综合这些策略，相较于随机采样40K数据点，实现了显著的11%提升。

电子科大、同济大学、新加坡国立大学等发表的Math-LLaVA：引导多模态大语言模型的数学推理能力-AI.x社区