谷歌DeepMind开发新模型，能预测哪些DNA突变引起遗传疾病-51CTO.COM

9月20日消息，谷歌旗下人工智能团队DeepMind开发了一款全新的人工智能模型，名为AlphaMissense。它能够快速分析错义突变对人体的影响，加速科学家研究罕见遗传病。相关成果于本周二在《科学》杂志上发表。

大约10年前，兹伽·阿夫塞茨（Žiga Avsec）还是一名物理学博士生，通过大学开设的机器学习课程参加了基因组学的速成班。他很快就进入了一个研究罕见病的实验室，参与研究一种非同寻常的线粒体疾病到底是由哪种基因突变引起的。

如今阿夫塞茨已是谷歌研究科学家，他表示，解决这个问题等于是“大海捞针”。遗传密码中潜藏着上千万种可能的罪魁祸首，这些DNA突变可能会对一个人的生物学产生严重影响。其中最令人感兴趣的是错义突变，即因为单个碱基替换而导致肽链中氨基酸发生改变。氨基酸是蛋白质的组成部分，而蛋白质是身体其他部分的组成部分，所以即使微小的变化也会产生巨大而深远的影响。

据估计，人类基因组中有7100万种错义突变，平均每人携带超过9000种。大多数是无害的，但有些与镰状细胞性贫血和囊性纤维化等遗传疾病有关。科学家还猜测，像2型糖尿病这样更复杂的疾病可能是由一系列错义突变共同引起的。阿夫塞茨在开始研究时问他的同事：“我们怎么知道哪些突变是真正危险的？”答案是“在很大程度上，我们无法知道”。

经过多年的艰苦研究，科学家在人类身上发现了400万种错义突变，其中只有2%被确定为致病性或良性。研究单个错义突变的影响可能需要几个月的时间。

如今，谷歌人工智能研究团队DeepMind发布了一款工具，可以极大加速这一研究过程。机器学习模型AlphaMissense能够分析错义突变并预测其致病性，准确率达到90%，优于现有的研究工具。相关论文于本周二在《科学》杂志上发表。

DeepMind此前开发的突破性模型AlphaFold能够根据氨基酸组成预测上亿种蛋白质的结构。AlphaMissense基于AlphaFold的基础建立，但两者的运行方式不同。AlphaMissense不预测蛋白质的结构，它更像一个大语言模型，类似于OpenAI的ChatGPT。

AlphaMissense经过训练，了解了人类及其他灵长类生物的生物学语言，因此清楚蛋白质中氨基酸的正常序列应该是什么样的。当人体内蛋白质中的氨基酸排序错误时，AlphaMissense就能发现，就像发现句子中不协调的单词一样。论文合著者Jun Cheng表示：“这是一种语言模型，但针对蛋白质序列进行了训练。” “如果我们在英语句子中替换一个单词，懂英语的人可以立即看出替换是否会改变句子的意思。”

DeepMind研究副总裁普什米特·科利（Pushmeet Kohli）拿一本食谱来打比方。如果AlphaFold关注的是各种食材如何组合在一起，那么AlphaMissense则是预测如果你使用了错误的食材会发生什么。

AlphaMissense根据分析与其他密切相关突变带来的影响，为7100万种可能的错义突变分配了0到1之间的“致病性分数”，分值越高，错义突变致病性的概率就越高。DeepMind研究人员与英国基因组学（Genomics England）合作，将模型的预测结果与已知的错义突变研究结果进行对比。论文称，AlphaMissense能够对89%的错义突变进行分类，准确率达到90%。

研究人员一直希望找出某种疾病背后的错义突变，现在可以通过人工智能来实现，并找到模型预测的致病性评分。人们希望，就像AlphaFold能推动药物研发、癌症治疗一样，AlphaMissense可以帮助多个领域的研究人员加速对基因突变的研究，使他们能够更快地诊断出疾病并找到新的治疗方法。阿夫塞茨说：“我希望这些预测能让人们更深入地了解哪些突变会导致疾病，或者能在基因组学中产生其他应用价值。”

研究人员强调，这些预测不能单独使用，只能用于辅助现实世界的研究。AlphaMissense可以帮助研究人员快速排除不太可能的错义突变，加速将基因突变与疾病匹配的缓慢过程。它还有助于科学家更好地理解人类遗传密码中容易被忽视的部分，模型的分析结果还包括每个基因的“重要性”指标，研究人员可以用这一指标来衡量某个基因对人类生存的重要性。

欧洲分子生物学实验室(European Molecular Biology Laboratory)副主任实验室欧洲生物信息学研究所(European Bioinformatics Institute)联合主任伊万·伯尼(Ewan Birney)表示，对于AlphaMissense并不感到“意外”。研究所过去与DeepMind密切合作，但没有参与AlphaMissense的研究。他说：“AlphaFold一问世，每个人都知道，利用这个框架来解释哪些突变会改变蛋白质性状应该是可能的。”

伯尼认为，AlphaMissense可以帮助医生对疑似患有遗传疾病的儿童进行快速诊断。“我们一直都知道，错义突变一定是导致某些未确诊病例的原因，这是对这些病例进行突变排序的更好方法。”他以RPE65基因为例，该基因导致失明，只能通过基因疗法治疗，AlphaMissense可以帮助医生迅速排除患者DNA中任何其他可能的基因突变，从而确定正确的治疗方法。

除了揭示错义突变的影响，AlphaMissense还展示了人工智能模型在整个生物学领域的潜力。因为AlphaMissense并非专门训练用于解决错义突变的问题，而是研究生物学中发现的各种蛋白质，所以该模型有助于科学家更好地了解人类整个基因组及其表达方式。科利表示：“模型的基本架构源自AlphaFold。从某种意义上说，很多东西都是从AlphaFold继承而来的，我们已经能够证明它可以推广到相关但完全不同的任务上。”