清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科学问题正确率提高28%-51CTO.COM

我们都知道，在科研界，LLM在解决简单科学问题时表现得游刃有余，但在应对复杂问题时往往会出现幻觉。于是，为了让模型更靠谱，研究人员尝试给模型装上科学工具，帮助它们解决高难度任务。

然而，一旦用上工具，模型就「上瘾」了！甚至连一些不怎么难的问题都要靠工具解决。这不仅让计算成本暴涨，还影响了模型自己「独立思考」的能力——就像有的人有了计算器就不再心算一样。

相较而言，人类科学专家在解决科学问题时，通常会先评估问题的复杂性，再决定使用基本推理或专业工具。

正是受这种解决问题流程的启发，一支来自UCSD和清华的研究团队提出了一种全新的微调方法，让模型「边适应边学习」，学会在使用外部科学工具和依赖内部知识之间做出合理选择。

论文地址：https://arxiv.org/abs/2411.00412

这一方法的显著意义在于它大大提高了模型效率。

研究人员仅使用一个拥有80亿参数的LLM——远小于行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。

这挑战了AI开发中的一个惯有想法：更大的模型必然能带来更好的结果。

教会AI在使用外部工具和依赖内部知识之间进行判断——就像训练一位年轻科学家如何在相信自己计算的同时知道何时咨询专业设备——可能比单纯地卷AI计算能力更为重要。

微调方法简介

微调方法由两部分组成：World Knowledge Distillation（WKD）和Tool Usage Adaptation（TUA）。

World Knowledge Distillation可以翻译为「世界知识蒸馏」。在WKD过程中，LLM通过学习那些借助工具生成的解答，来掌握和积累特定领域的知识。

WKD分为监督微调和偏好优化两部分。

对于所有问题，研究人员提示LLM使用工具生成确定性的解答，然后将这些解答作为目标，进行监督微调（SFT）。

在遇到开放式问题时，除了进行监督微调外，LLM会生成一组不同的解答提议，并使用预定义的指标对这些提议进行排序，以构建偏好对；然后利用这些数据进行偏好优化。

而在Tool Usage Adaptation中，研究人员首先在基准数据集的问题上评估经过WKD微调后的LLM。对于每个问题，他们采样生成一组直接回答，以计算其准确率。

基于预设的准确率阈值，他们将问题分为两个子集：简单问题集，即LLM可以直接解决的问题；以及复杂问题集，即LLM需要借助工具回答的问题。

对于简单问题集，保持与WKD一致的对齐目标，即继续通过内化已有知识直接作答；而对于复杂问题集，研究人员将对齐目标切换为包含工具使用轨迹的增强解答，并训练LLM准确地遵循这些轨迹。

实验过程

研究人员使用Llama-3.1-8B-Instruct作为微调方案的基础模型。同时还对其他最先进的开源和闭源模型进行了广泛评估，包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

数据集

研究人员使用了两个现有的公开数据集MATH和SciBench，并构建了四个新的科学数据集用于实验：Mujoco、偏微分方程（PDEs）、气候科学和流行病学。

四个数据集的构建遵循系统化流程：首先，基于专家咨询和模拟器功能设计了特定领域的问题模板；接着，通过在科学合理的参数范围内进行采样，生成单独的问题；最后，利用LLMs和工具使用轨迹生成相应的解答。

Mujoco中主要涉及刚体和柔体动力学相关问题。

在偏微分方程（PDEs）中，研究人员设计了内部的数值求解器，并编制了关于热传递、化学工程、人口模拟等领域的问题。

气候科学问题数据集则以神经代理模型为中心。该模型接受时间、气候情景（如SSP126、SSP245）、温室气体排放（CO₂，CH₄）和气溶胶气体（BC，SO₂）等输入，输出相应的地表温度。

流行病学问题数据集使用了最先进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件，用于描述流行病状态。模型输出未来28天的流行病状态预测。

四个自定义数据集主要由多项选择题构成，而其中的气候科学数据集还包含开放式问题（例如关于气候变化缓解的政策建议）。公开的MATH和SciBench数据集则完全由数值问题组成。

外部科学工具

研究人员为不同数据集使用了不同的工具。

对于Mujoco数据集，他们使用了官方API；

对于PDEs数据集，他们利用了内部的数值求解器；

对于气候和流行病学数据集，他们使用了封装对应神经代理模型的API；

对于开放式数据集，他们采用了Python代码解释器。

评估指标

实验主要评估了两种准确率：答案准确率和工具使用准确率。

答案准确率

答案准确率量化了模型提供的正确答案比例。

对于自定义数据集中的多项选择题（MCQs），研究人员根据模型是否选择正确选项来分配二进制分数。

对于MATH和SciBench数据集中的数值答案，如果答案在真实值的±5%的容差范围内，则视为正确答案。

工具使用准确率

工具使用准确率评估模型是否能在工具使用方面做出智能决策，即在回答较难问题时使用工具，而在回答较简单问题时直接作答。

问题根据训练模型是否可通过Pn（无工具使用）回答来划分为简单（E）或困难（H）。当使用允许工具选择的Pi时，决策进一步标记为T（使用工具）或N（不使用工具）。例如，HT表示模型在处理一个困难问题时选择使用工具。

工具使用准确率定义为：

实验结果

答案准确率

该微调方法在自定义数据集上的表现显著优于所有基准模型，这些数据集通常未在预训练中涵盖。

尽管在公开数据集上，微调过的模型并未超越当前的最先进模型，但相比于未微调的基础模型，该方法显示出显著的改进。这一在公开基准测试上的性能差距，可能是由于当前最先进模型具有更多的参数量，并对开源数据集进行了特定优化。

工具使用准确率

总体而言，训练模型在所有数据集上均实现了最佳的工具使用准确率，除了在SciBench数据集上排名第二。

相比之下，其他模型的准确率大约为50%，表明两种典型情况：要么过度依赖工具，要么从不尝试使用工具。

除了表中展示的优势外，研究人员还进一步分析了MATH数据集上的工具使用决策情况，该数据集在下图中根据问题难度提供了先验标签。

训练模型在问题难度增加时显示出合理的工具使用增长。基础模型则无论问题难度如何均表现出对工具的过度依赖；而Claude 3.5在面对简单和困难问题时均表现出更多的直接回答信心，可能是因为MATH是一个公开数据集，该模型在训练期间已接触到类似问题。

作者介绍

Bohan Lyu

Bohan Lyu目前在清华大学修读计算机科学与经济学双学位。

2023年，他加入清华NLP实验室，受刘知远教授的指导。

2024年夏天，他前往加州大学圣地亚哥分校（UCSD）的计算机科学与工程系Rose-STL实验室，导师是Rose Yu教授。本研究部分工作在他访问UCSD期间完成。

他的研究兴趣是设计创新的计算机科学方法，特别是专注于语言技术、知识发现和数据挖掘，以解决现实世界的挑战。

此前，他曾担任过ICLR 2024、ICML 2024和ACL 2024研讨会的审稿人。

Yadi Cao

Yadi Cao在加州大学圣地亚哥分校（UCSD）计算机科学与工程系担任博士后研究员，导师是Rose Yu教授。

此前，他在加州大学洛杉矶分校（UCLA）获得了计算机科学博士学位，导师是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程（PDE）的数值解和机器学习方法，特别是在计算固体和流体动力学方面。