
ChemBench:大语言模型化学能力评测数据集
ChemBench 是上海人工智能实验室 AI for Science 团队自建的化学语言模型评测数据集,实现了大模型能力在化学领域的全面评估。
研究团队从互联网公开资源中采集并设计构建了 4100 多道多项选择题,每个选择题只有一个正确答案。覆盖了 基于文本的分子生成、名称转换、性质预测、温度预测、分子描述、产率预测、溶剂预测、逆合成分析、产物预测 九大化学任务。
ChemBench 评测任务介绍
随着大语言模型的飞速发展,一系列特定领域的垂类模型也不断涌现,这其中就包含化学大模型。但是如何全面的评估一个大模型的化学能力仍然是一个比较棘手的问题。
目前对化学领域大语言模型的能力评估会存在以下问题:
1. 目前很多已有的化学任务评测基准,往往只是针对某个具体的化学任务进行评测,或是为了特定领域模型所设计,并不适用于测试大语言模型。
2. 现有的对化学大语言模型的评测基准大多采用问答形式,使用 BLEU 或者 ROUGE 等指标进行评测,这些类型的评估指标会受到语言模型输出风格的显著影响,不适合科学事实正确性的评测,在这种情况下,如果模型输出了更好的语言风格,但是包含事实性错误,可能会获得更高的评估分数。
为了解决这些问题,上海 AI Lab 化学大模型团队提出了 ChemBench,由多项选择题构建,用来评估大语言模型的化学能力。
评测的任务以及每个任务题目数量分布如下图:
Name Conversion:名称转换任务,指分子的 IUPAC chemical name 和 smiles 互相的转换,测试了模型对分子不同描述的认知
Property Prediction:性质预测任务,针对分子预测其不同有用的化学性质
Mol2Caption:分子描述任务,针对特定分子进行多样的描述表征
Caption2mol:基于文本的分子生成,用户给定特定对分子的描述,模型预测出相应的分子的结构式
Product Prediction:产物预测任务,预测化学反应能得到的产物
Yield Prediction:产量预测任务,预测特定化学反应能得到的产量
Retrosynthesis:逆合成分析任务,根据成品分子预测其合成的路径
Solvent Prediction:溶剂预测任务,预测化学反应中所需要的溶剂
Temperature Prediction:温度预测任务,预测特定化学反应需要的温度条件
在多项选择题的构建中,团队还借助 ChatGPT,通过对每个任务设计专用的提示工程,构建每个题目的错误选项,使得模型的错误选项有足够难度的混淆,保证了选项的辨别难度。
数据集题目展示
下面将选取 ChemBench 中不同任务的题目进行展示。
Name Conversion 名称转换任务的题目展示如下:
Retrosynthesis 逆合成分析任务的题目展示如下:
Mol2Caption 分子描述任务的题目展示如下:
同时,7B开源模型、GPT-3.5、GPT-4 在 ChemBench 上的化学能力由弱变强,符合人们对于这些模型使用上能力的认知,也进一步反映了ChemBench测评的有效性和客观性。
本文转载自 司南评测体系,作者: 司南 OpenCompass
