化学元素几乎构成了物理世界的一切。截至 2016 年,人类已知的元素数量为 118 种,所有这些元素都能在挂在每个化学实验室和教室内的元素周期表中找到。元素周期表中的每个元素都以 1 个或者 2 个字母的缩写出现,例如“O”代表氧气,“Al”代表铝。
同时周期表上还会表明它们的原子序数,这表明该元素的原子核中有多少质子。质子数是非常重要的,因为它还决定了有多少电子围绕原子核运行,这基本上使元素成为它是什么,并使它具有化学性质。简而言之,原子序数是一个元素的身份证。
近日发表在《Nature Chemistry》的论文中,来自 EPFL 基础科学学院的化学工程师在对元素周期表进行深入研究之后,发现了每个元素必须要报告的另一组关键数字:元素的氧化态,也称之为氧化数。简单地说,氧化态描述了一个原子必须获得或失去多少个电子,才能与另一个原子形成化学键。
领导这项研究的 Berend Smit 教授说:“在化学中,氧化态总是在一个化合物的化学名称中报告。氧化态在化学基础中发挥着如此重要的作用,以至于有些人认为它们应该被代表为周期表的第三维。一个很好的例子是铬:在氧化态 III 中,它是人体所必需的;在氧化态 IV 中,它是极其有毒的”。
如果弄清某个元素的氧化态是非常直接的,但涉及到由多种元素组成的化合物时,事情就变得复杂了。Smit 教授说:“对于复杂的材料,实际上不可能从第一原理来预测氧化态。事实上,大多数量子程序需要金属的氧化状态作为输入”。
目前预测氧化态的最先进技术仍然是基于 20 世纪初开发的一种叫做“键价理论”(bond valence theory)的东西,它根据组成元素的原子之间的距离来估计一种化合物的氧化态。但是这并不总是有效,特别是在具有晶体结构的材料中。Smit 表示:“众所周知,重要的不仅是距离,还有金属复合物的几何形状。但考虑到这一点的尝试还不是很成功”。
在这项研究中,研究人员能够训练一种机器学习算法,按照氧化状态对一组著名的材料--金属有机框架进行分类。研究小组使用了剑桥结构数据库(一个晶体结构库),在材料的名称中给出了氧化态。Smit 说:“该数据库非常混乱,有许多错误,而且实验、专家猜测和键价理论的不同变化被用来分配氧化态。我们假设化学是自我纠正的,因此,虽然在个人账户上有很多错误,但作为一个整体,社区会把它弄对”。
EPFL 的 Smit 小组的一名博士生 Kevin Jablonka 表示:“我们基本上做了一个机器学习模型,它抓住了化学界的集体知识。我们的机器学习不外乎是电视游戏‘谁想成为百万富翁’?如果一个化学家不知道氧化态,其中一条生命线就是问化学的观众他们认为氧化态应该是什么。通过上传晶体结构和我们的机器学习模型,是化学家的观众会告诉他们最可能的氧化状态是什么”。