牛津大学教授Matthew Higgins正在与一个经典的令人头痛的问题作斗争:蛋白质到底是什么样子的?
自2005年以来,他的实验室就一直在关注于疟疾的相关问题。
传统技术只能生成蛋白质结构的模糊轮廓,这让Higgins感到困惑。
不过,通过使用一种名为AlphaFold 2的新人工智能技术,他破译了导致疟疾的寄生虫所使用的一种关键蛋白质的结构。
这项突破帮助他开发了一种实验性疟疾疫苗,目前正在进行人体测试。
疟疾每年导致600多万人死亡,而这些疫苗可能是对抗该疾病的关键。他说,如果没有AlphaFold,我们可能仍在碰壁。
从Higgins的成就中不难看出,AlphaFold 2正在迅速颠覆科学和医学。
在短短几年内,Alphabet旗下的人工智能初创公司DeepMind已经从赢下围棋比赛,成长到可以解决生物学的巨大挑战,而现在它已经被超过100万的研究人员使用,有大学的研究人员,也有大药厂的研究人员。
DeepMind首席执行官Demis Hassabis去年在一个播客节目中说:「AlphaFold令人惊讶,但这只是一个开始」。
从赢下围棋,到改变科学史
如今,蛋白质是几乎所有药物的主要靶点,因此了解蛋白质结构,是解决如何通过特定方式干预疾病表型的关键。
在AlphaFold之前,寻找蛋白质的结构是一项艰巨的任务。
传统的方法是研究人员对蛋白质进行结晶,将其变成一种蛋白质很抵制的盐分形式。如果这一步奏效,他们就用X射线轰击每个晶体,观察电子如何从它身上反弹以产生图像。
通过反复进行这一过程,科学家们可以了解到一个蛋白质的3D结构。
Higgins说,一个博士生可能需要花一两年的时间才能发现一种新的结构,但是结果往往是模糊、不确定的。
DeepMind首席执行官Demis Hassabis是一名国际象棋神童,也是人工智能的布道者。他于 2010 年创立了 DeepMind,目标是构建能够像人类一样执行某些任务的人工智能系统,甚至能够比人类做得更好。
2016年,DeepMind的人工智能系统AlphaGo在围棋比赛中击败了世界级棋手。
在围棋胜利之后,Hassabis和DeepMind的顶级科学家David Silver决定,是时候从围棋比赛,转向解决现实世界的问题了。
于是他们开始转攻蛋白质的问题,而生物学家John Moult数十年的工作为DeepMind进入生物学铺平了道路。
1994年,他创办了CASP 蛋白质结构预测大赛(Critical Assessment of Protein Structure Prediction)。
参赛者会被分到大约100个未知的蛋白的氨基酸序列,这些蛋白质的三结构已经是确定的但并未公布过。
参赛团队将有几个月的时间去研发和使用数学模型以解决这些未知的结构。Moult会对他们的预测进行准确性评分。满分100,超过90就表明结构预测接近完美。
DeepMind在2018年的CASP会议上进行了首次公开尝试。AlphaFold的第一个版本赢得了比赛并击败了世界标准。在比赛中,获胜者的预测准确率通常为40%左右,而AlphaFold的成绩是60%。
虽然这个成绩让人眼前一亮,但AlphaFold的预测有很多错误,还不够完美。Hassabis 想做得更好。
在CASP结果公布前几个月,AlphaFold背后的顶级科学家之一John Jumper正在与他的团队一起规划,想要对该技术进行渐进式的改进。
Hassabis 却出人意料地叫停他们,大概意思是「用现在的模型解决这个问题是不是太难了?是不是做个别的模型?」
那次谈话之后,Jumper就抛弃了AlphaFold的第一个版本,直接从头开始。Jumper说,「AlphaFold 2是在对蛋白质有更多生物和物理知识的基础上构建的。」
在2020年年底的CASP上,AlphaFold 2交出了答卷,预测蛋白质结构的准确率达到了近90%,远远高于其他参赛选手。专家们认为它有效地解决了这个问题。
「那一刻,我知道我们改变了科学史,」Jumper说。
生命科学领域的爆炸性增长
在CASP之后的几个月里,DeepMind行动迅速。
该团队在2020年圣诞节前后预测了人体中的所有2万种蛋白质。这些结果于2021年7月与软件的代码一起发表在Nature的一篇开创性论文中,该论文已被引用超过8800次,也就是说每天约被引用15次。
Hassabis 说,决定免费发布AlphaFold 2是为了最大限度地造福人类。
据CNBC报道,DeepMind作为Alphabet的子公司,通过向Alphabet的其他公司,如YouTube和谷歌,出售软件和服务来赚钱。
而后,Hassabis在2021年成立了生物技术初创公司Isomorphic Labs,潜心研究药物。与此同时,AlphaFold 2也一直在运转,在去年夏天发布了2亿份蛋白质结构预测结果。
研究的步伐正在迅速加快。
根据生物医学研究目录PubMed的数据,2020年只有4篇论文参考了AlphaFold。这一数字在2021年增长到92篇,2022年增长到546篇。2023年将会有超过1000篇论文。
药物研究的加速器
一些生物技术公司现在正在使用AlphaFold 2来开发药物。
「AlphaFold向人们展示了可能性,从而引发了一波创新浪潮。」波士顿初创公司AI Proteins的首席科学家Chris Bahl说,该公司也使用AlphaFold帮助开发药物。
在2019年,Raphael Townshend作为DeepMind实习生,在AlphaFold工作,当时他正在完成斯坦福大学的计算机科学博士学位。
现在,他在旧金山经营着一家名为Atomic AI的创业公司,希望开发他所谓的「RNA的AlphaFold」。
RNA读取我们的遗传(DNA)中的指令,在体内创造蛋白质。
他的公司想要预测RNA分子的结构,并且希望利用这些研究来开发药物。其他生物技术公司也在将AlphaFold与其他AI技术结合使用,来快速、廉价地发现潜在的新药。
例如,初创公司Insilico Medicine将自己的人工智能系统与AlphaFold一起使用,来设计可以阻断与肝癌相关的蛋白质的分子。它创造了其中一个分子,并使用实验室测试来确认它可以发挥作用。该公司在1月份发表了这项研究。
该公司的首席执行官Alex Zhavoronkov声称,他的团队从找到药物靶点到设计药物并在实验室进行测试,只花了大约50天,不到100万美元,他认为这是药物开发一个记录。
Zhavoronkov的办公室里放着Hassabis的照片,「AlphaFold是一个绝妙的发现,但它是一个巨大的乐高拼图中的一部分,你需要拥有这个拼图才能成功地将药物投放市场。」
不过,虽然这项人工智能的技术让药物研发变得更加快速容易,但是由于临床试验的费用,该公司并不打算将其药物推进人体研究,因为在动物和人类身上进行测试的过程仍然需要许多年和数亿美元。
下一步是什么
人工智能在生物技术方面的潜力是有限的。
AlphaFold的预测并不总是完美的,这个预测模型在解决一小群未知蛋白质方面非常准确,但这并不能保证所有预测的结构都是正确的。
牛津大学的Higgins说,他自己会用实验室的实验来再次核查人工智能的预测,因此他对完全依赖于AlphaFold预测的研究论文持谨慎态度,因为其中缺少实验验证这一环。
尽管存在这些限制,但AlphaFold 2已是一项重大突破,甚至激起了诺贝尔奖的讨论,尤其是在它赢得了2022年300万美元的突破奖之后。
华盛顿大学计算机科学教授Pedro Domingos表示,AlphaFold团队的研究是更深层次的,像是蛋白质如何与其他蛋白质或小分子相互作用,这样问题是十分有意义的。
未来他们的研究会越来越难,也不清楚AI是否能够胜任接下来的研究。但是Domingos认为,DeepMind的团队非常优秀,所以他对其未来发展很是看好。
DeepMind已经在遗传学和预测更复杂的蛋白质相互作用方面做出了一些研究,但是他们下一个瞄准的什么重大生物学问题还依旧保持神秘,并未透露,所以未来的其他机构、公司对它技术的应用也将「越来越难把握」。
DeepMind的Jumper表示,他的AlphaFold团队专注于清除生物学研究中的下一个重大障碍。但这仍然是一个秘密。
「我有我的理论,关于这可能走向何方,这是什么样的技术,以及未来可能的情况,我不会透露。」