GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!

发布于 2024-5-23 15:02
浏览
0收藏

随着现代大语言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出现,LLMs 展示了生成类人对话和解决复杂数学难题的非凡能力。从 Meta 在 4 月 18 日发布 Llama3-8B & 70B 开始,Qwen 开源的首个百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,还有近几日 OpenAI 放出的大招 GPT-4o,号称更低的价格,更强的性能,大家都号称自己的新模型数学能力顶呱呱,但事实真是这样吗?

如何透明化评测大模型的各项数学能力如今成了大家的难题,因为开源数据集往往评测角度较为局限,如常用的 GSM8k 专注日常计算,MATH 只专注于高中数学竞赛。

再加上,负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待:

  • 🏠想要全面知道从小学,初中到大学每个阶段模型数学表现各怎么样
  • 📚中英文能力都要体现
  • 🏷要是每道题都有知识点标签就好了
  • 🤔emmm,能不能再考下理论题,天天做应用题也不知道是不是模型基础没打好
  • ✈️测试出的结果要鲁棒,真实反映模型能力
  • 😊不想收集一大堆数据集,最好上面的内容能一次测试完(-v-)
  • .....

这要求都能满足吗?还真能!

在最新的 ACL2024 中,由上海人工智能实验室联合香港中文大学,北京航空航天大学和南京大学提出的 MathBench 打破了大模型数学评测不透明的现状,且已经被 ACL2024 Findings 接收

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

MathBench 结构及特点

正如本文开头所描述的,传统评估 LLMs 数学能力的基准存在一些局限性,如单一视角的解决问题能力评估和缺乏全面的学段分级。MathBench 弥补了这些不足,提供了严格的数学能力评估新基准。

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

MathBench 整体结构示意

相比传统的数学评测集,MathBench 有以下特点:

  1. 多维度的知识框架:MathBench 配有一个多层次知识体系,具有从基础计算,小学到大学的 5 阶段的丰富题目,每阶段都配有相应的3层细粒度知识点,一次评测即能从广度和深度两个维度上掌握模型能力,不留遗憾。
  2. 理论与应用兼顾:“基础不牢,地动山摇”。MathBench 分为MathBench-A(应用能力)MathBench-T(理论能力)两个子集,不仅包含实际应用问题,还包含相关领域专家精心收集的基础数学概念和推论题。
  3. 双语支持:对于上述的所有知识层次,以及理论应用题,MathBench 都提供中英文题目,且中英题目根据语境学习现状独立收集,拒绝机翻,以保证评测结果的合理性。
  4. 鲁棒评测:针对数学评测难以抽取答案的现状,MathBench 中的大部分题目为经过专家标注的选择题,保证了选项合理且有一定的干扰度,并且采用循环评测(CircularEval)作为基础评测方式,模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。
  5. 来源可靠:MathBench 中约 80% 题目为新收集的题目,来源大部分为专业考试,如高考、中考等,且经过专门校验。

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

MathBench的5阶段3层知识点结构

(小学与基础运算因有相同知识点体系而合并)

各大模型在 MathBench 上的表现

下面就让我们看一下在 MathBench 作为数学能力照妖镜下各模型的表现吧:

总体结果,GPT-4o 优势明显,国产模型紧随其后

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

MathBench理论与应用分级测评结果

(A代表应用题结果,T代表理论题目)

在应用题上:

  • GPT-4o领先较大,在高学段尤为明显
    部分国产模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已经有着超越 GPT4-0125-Preview 的表现,但离最新版的 GPT-4o 仍有不小差距。通过 MathBench 的多阶段细分结果可以发现,差距在较高学段,如高中和大学的题目上尤为明显。如 GPT-4o 在大学阶段的应用题目上虽然只有 54.0的CircularEval 分数,但相对 Qwen-Max-0428 已经有着接近翻倍的表现。
  • 部分开源模型实力强劲
    如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有着超过 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表现。DeepSeek-Math-7B-RL 作为 7B 量级的开源数学模型表现亮眼,在应用题目上甚至超过了 Qwen-72B-Chat。

在理论题上:

  • GPT-4o 各学段全面领先,展现扎实的基本数学功
    作为基本数学理论能力的展现,MathBench-T 中不仅考察模型基本数学知识,还加入常用的推论,以及精心设计的干扰项来迷惑模型,所以模型难以通过简单背诵来得到高分。GPT-4o 在此阶段全面领先各 API 模型,拿下应用理论双第一名🏆,证明了其不仅基础扎实,且会熟练运用。
  • 理解理论并不代表能够熟练应用
    如 Qwen-1.5-110B-Chat 虽与 GPT-4o 在理论阶段有着相似的分数,但在应用阶段两者差距较大,可能因为在较高阶段的数学知识上,运用要比理论需要更多的技巧,比如在高中和大学阶段,两者的应用分数差距越来越大,而理论上却没有相似的明显差距。

模型整体分数趋势

下面是应用阶段的多个模型平均分数的整体趋势。

可以发现,在基础运算(Arithmetic)阶段和小学数学(Primary)阶段有着类似的难度,而从初中起,随着学段的增加,模型的平均表现下降明显:

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

MathBench 应用题在各学段上的平均模型结果,呈现自然梯度趋势

中英文双语言结果对比

下面是众多大语言模型在 MathBench 上的中英双语言结果对比,按语言平均分从从小到大排序。

其中某些模型有着较为明显的语言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明显偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英数学上有着相近的表现。

GPT-4o 的数学又双叕进步了?来 MathBench 看看新版 GPT-4o 到底强在哪!-AI.x社区

值得注意的是,为了 MathBench 的中英成绩能代表该语言环境下的真实成绩,在收集过程中并没有将题目相互翻译,所以在对比中仅供参考,因为题目不是中英文一一对应的关系。

已于2024-5-23 15:17:19修改
收藏
回复
举报
回复
相关推荐