随着中文大规模语言模型在自然语言理解与自然语言生成方面展现出强大的性能,现有针对特定自然语言处理任务的中文评测基准数据集已经不足以对中文大模型进行有效地评估。传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。目前,针对中文大模型复杂知识评测的数据集十分匮乏,特别是涉及我国教育体系下不同层次和不同领域的专业知识。
为了弥补这一差距,天津大学自然语言处理实验室与华为诺亚方舟实验室联合发布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。
- 论文链接:https://arxiv.org/abs/2305.10263
- 数据链接:https://github.com/tjunlp-lab/M3KE
M3KE 数据集
数据集介绍
M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科,分布如 Fig 1 所示。
研究人员基于两个标准构建 M3KE 数据集:
1,契合中国教育体系,覆盖多教育阶段
研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。
2,覆盖多学科领域
为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。
数据集统计
Table 3 显示了 M3KE 的整体统计数据。上述四个学科类别中的任务数量分别为 12、21、31 和 7,而四个学科类别中的问题数量分别为 3,612、6,222、8,162 和 2,126。任务中包含的问题最大数量为 425,最小数量为 100。社会科学和自然科学的问题通常比艺术与人文学科和其他科目的问题更长,而它们的答案选项较短。
多学科视角下的 M3KE 介绍及示例
人文艺术
人文与艺术学科包括语文、艺术和历史等多个领域的学科。这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。除人文学科外,M3KE 还包括艺术科目,如舞蹈、美术、音乐、电影等,艺术是人类文化的重要组成部分,评测中文大模型在艺术领域的表现同样重要。
美术任务示例:
下面关于拉斯科洞穴壁画说法错误的是?
A. 这个壁画是在法国发现的
B. 发现的动物形象有 100 多个
C. 发现的时间为 1940 年
D. 壁画颜色以黑色为主
世界近现代史任务示例:
从尼德兰革命到法国大革命历时两个多世纪,而此后仅半个世纪资本主义就初步形成了一个世界体系,这主要是因为?
A. 法国大革命的影响得到广泛传播
B. 维也纳体系激化了各国社会矛盾
C. 工业革命使资本主义力量迅速增强
D. 殖民统治遍及世界各大洲
社会科学
社会科学重在人文学科的应用,如法律、政治、教育和心理等学科。政治课程贯穿初中、高中、大学、研究生多个教育阶段,其他学科则主要分布在大学阶段的课程中。社会科学还包括经济和管理学任务,这些任务的试题选自中国研究生入学考试中的经济学联考和管理学联考,知识涉及微观经济学、宏观经济学、管理学和逻辑学等。
刑法学任务示例:
甲欲杀乙,将毒药投入乙的饭食中。乙服食后,甲后悔,赶紧说明情况,并将乙送往医院。医院在过程中检查发现,甲所投放的 "毒药" 根本没有毒性,乙安然无恙。甲的行为属于?
A. 不构成犯罪
B. 犯罪未遂
C. 犯罪中止
D. 犯罪既遂
教育学原理任务示例:
教育研究中最基本、最常用的研究方法是?
A. 教育观察研究
B. 教育调查研究
C. 教育测量研究
D. 教育实验研究
自然科学
自然科学包括工程学、科学、医学和数学、物理学、化学、生物学等基础学科。这些学科通常需要复杂的计算、分析和逻辑推理能力。在我国教育体系中,同一学科在不同阶段会涉及不同类型的知识。例如,小学数学主要学习基本的算术运算,而高中数学则涵盖更高级的数学概念,如数列、导数、几何等。
动物生理学任务示例:
使用普鲁卡因麻醉神经纤维,影响了神经纤维传导兴奋的哪一项特征?
A. 生理完整性
B. 绝缘性
C. 双向传导性
D. 相对不疲劳性
操作系统任务示例:
目录形式对文件的检索效率影响很大,下列最高级的目录形式是?
A. 单级目录
B. 两级目录
C. 三级目录
D. 树形目录
其它
其他类型的任务包括宗教、中国公务员考试,计算机等级考试等。这些任务需要的知识不局限于上述单一层次或学科的知识。如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。
中国公务员考试任务示例:
以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。而一项最新的、更为可靠的研究得出的结论是:食用巧克力与心脏病发病率无关。估计这项研究成果公布以后,巧克力的消费量将会大大增加。上述推论基于以下哪项假设?
A. 尽管有些人知道食用巧克力会增加患心脏病的可能性,却照样大吃特吃
B. 人们从来也不相信进食巧克力会更容易患心脏病的说法
C. 现在许多人吃巧克力是因为他们没有听过巧克力会导致心脏病的说法
D. 现在许多人不吃巧克力完全是因为他们相信巧克力会诱发心脏病
中医学任务示例:
人参有大补元气、益气固脱的作用,而用于慢性虚弱性疾病常以何药作代用品?
丹参
党参
黄芪
太子参
多教育阶段视角下的 M3KE 介绍和示例
研究人员按照中国教育体系对数据集进行了分阶段,包括小学、初中、高中、大学及研究生入学考试。同样,研究人员还选择一些教育体系外的考试科目,如计算机等级考试和中国公务员考试等。
小学
小学语文任务示例:
下列词语书写完全正确的一项是?
A. 天籁之音 行云流水 笔走龙蛇 翻箱倒柜
B. 高山流水 轻歌曼舞 画龙点睛 别出心栽
C. 余音绕梁 巧夺天功 妙笔生花 焦躁不安
D. 黄钟大吕 惟妙惟肖 栩栩如生 精兵减政
小学数学任务示例:
一件商品,先提价 20%,以后又降价 20%,现在的价格与原来相比?
A. 提高了
B. 降低了
C. 不变
D. 不知道
初中
初中语文任务示例:
下列说法正确的一项是?
A. 《最苦与最乐》选自《梁启超文选》,作者梁启超是明代思想家、学者
B. 《邹忌讽齐王纳谏》选自《战国策》,《战国策》是战国时游说之士的策谋和言论的汇编,由东汉的刘向编订为三十三篇
C. 词又称 “长短句”,句式长短不一。兴盛于宋代,苏轼和辛弃疾是豪放派的代表人物,而李清照是婉约派的代表人物
D.《岳阳楼记》实际上是一篇借物言志的文章,寄寓了作者与民同乐的思想
初中政治任务示例:
班级要以 “崇尚法治精神” 为主题制作黑板报,小兰负责 “践行平等” 版块内容的编写。以下她搜集的素材适合入选的是?
A. 公交车上设有 “老弱病戏孕” 爱心专座
B. 中学生到革命传统教育基地参加研学活动
C. 解放军战士不畏严寒酷暑,守卫祖国边疆
D. 同学们利用节假日到街头清除小广告
高中
高中语文任务示例:
沈括在《梦溪笔谈》中说道:“天地之变,寒暑风雨,水旱螟蝗,率皆有法。” 这句话的哲学寓意是?
A. 规律是客观事物变化的根本原因
B. 规律具有客观性、普遍性
C. 要学会用联系的观点看问题
D. 要学会用发展的观点看问题
高中生物任务示例:
环境容纳量取决于一个种群所处的环境条件。下列叙述正确的是?
甲乙两地的灰喜鹊种群的环境容纳量一定是相同的
生活在某草原的东亚飞蝗不同年份的环境容纳量可能是相同的
当种群数量接近环境容纳量时,死亡率会升高,出生率不变
生活在微山湖中的鲫鱼和黑鱼环境容纳量是相同的
大学
大学口腔医学任务示例:
排在我国口腔癌之首的是?
A. 牙槽黏膜癌
B. 颊黏膜癌
C. 唇癌
D. 舌癌
大学经济学综合任务示例:
下列项目哪一项应计入 GDP?
A. 政府转移支付
B. 购买一辆用过的汽车
C. 企业支付的贷款和债券利息
D. 购买彩票赢得的 1 万元
其它
计算机等级考试之计算机基础任务示例:
因某工作表数据非常多,在滚动浏览时第一行的标题无法始终看到,应如何操作才能始终看到标题行,最快捷的方法是?
A. 设置 “打印标题”
B. 冻结窗格
C. 冻结首行
D. 冻结首列
宗教任务示例:
宗教能够与社会主义社会相适应的政治基础是?
A. 人民民主专政国家政权的建立
B. 广大教徒是拥护社会主义制度的,同全国人民在根本利益上是一致的
C. 中国共产党领导和执政地位的确立
D. 独立自主,自办教会
实验
评测模型
- GLM-335M/10B/130B,由清华大学开发的预训练大语言模型,支持中、英文双语。研究人员选择 GLM 中文版的三个模型,参数规模分别为 335M, 10B 和 130B。
- BLOOM-7.1B,Hugging Face 推出的多语言大模型,由数百名研究人员合作开发。
- ChatGLM-6B,由清华大学开发的语言模型,使用指令数据微调,并通过基于人类反馈的强化学习进一步训练。
- MOSS-16B-SFT, 由复旦大学开发的语言模型,实验中使用经过指令微调版的 MOSS-moon-003-SFT 版本。
- BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 开发的经过 20 万条指令微调的语言模型。
- BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 开发的经过 200 万条指令微调的语言模型。
- GPT-3.5-turbo,由 OpenAI 开发的语言模型。采用人工构建的高质量指令数据,进行人类反馈强化学习训练。
Zero-shot/Few-shot 评估
在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。
不同学科类别下的评测结果
不同教育阶段下的评测结果
实验结果分析
1,在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。
2,大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。
3,在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。
4,少样本的设置在大多数情况下并没有带来性能的改善(Table 5&7 vs Table 4&6),尤其是经过指令微调或基于人类反馈的强化学习训练后的语言模型。这表明对预训练语言模型进行指令微调可以显著提升语言模型的零样本学习能力,不需要额外的示例就能理解指令或问题的意图。
结论
研究人员提出了一个新的基准 M3KE,用于评估中文大模型在多个学科和不同教育阶段下中文大模型知识掌握能力。M3KE 包含 71 个任务和 20,447 个问题。研究人员发现,所有参与评估的开源中文大模型都明显落后于 GPT-3.5。研究人员希望 M3KE 有助于发现中文大模型的知识漏洞,促进中文大模型进一步的发展。
M3KE 中所有的任务