“这可能是首个有望获得诺贝尔奖的人工智能成果。但它的突破肯定是在生物学领域”,谈及最近大火的 AlphaFold,阿德莱德大学计算机科学教授沈春华告诉 DeepTech。
他表示,AlphaFold 之所以会受到如此关注,是因此前很少有机器学习和生物相结合、且真正能解决重要实际问题的成果。从 DeepMind 发表在 Nature 上的第一版论文来看,其使用的机器学习算法都是已有技术,且主要涉及到卷积神经网络。
商汤研究院研究执行总监、智源青年科学家代季峰告诉 DeepTech,从深度学习领域来看,AlphaFold2 并不是理论上的原创性突破,它是把现在最好的深度学习算法,跟具体的领域知识结合起来,然后产生出较大的应用突破。它的应用前景主要是在结构生物学上,即提供测试蛋白质三三维结构的新方法。以前主要用冷冻电镜和 X 射线衍射,需要很多人工实验,现在 AlphaFold2 未必比前面两种方法准确,但会节省很多钱力和人力。
图 | AlphaFold 预测的新冠病毒 ORF8 蛋白结构,已获实验证实(来源:CASP14)
目前,AlphaFold 2 的能力已获李飞飞等权威人士点赞,在今年的国际蛋白质结构预测竞赛(CASP 14)中,AlphaFold 2 在 CASP 的系列测试中获得 92.4 分,在最具挑战的自由建模蛋白质测试中获得 87 分。
图 | AlphaFold 在最具挑战的自由建模蛋白质测试中获得 87 分
“算力的提升,使得 AlphaFold 可在短时间内测试大量不同的算法”,说到 AlphaFold 表现优异的原因之一,加州理工学院博士后研究员陈子博告诉 DeepTech。
成绩的确很厉害,但是 DeepMind 在博客中坦言,AlphaFold 预测的结果并非十分完美。对此,陈子博表示:“我觉得还有很多未解难题,比如如何从第一原理来预测蛋白质的结构,如何从蛋白质的结构预测其功能,以及如何设计蛋白质的构象改变甚至是变构等。”
图 | 蓝色为计算预测,绿色为实验结果(来源:deepmind.com)
预测蛋白质结构,到底有多难?
而 AlphaFold 之所以引起追捧,是因为预测蛋白质结构,是个超级科学难题。原北京协和医学院教授、目前从事肿瘤药物研发的王晨光博士告诉 DeepTech,他在 30 几年前读大学时,老师就曾提到蛋白质从确定的一级结构和二级结构到三级结构的不可预测性。
半个多世纪以来,学界一直在探索如何解决该问题。在上世纪九十年代,人们就意识到如果数据足够多、算力足够强,用机器预测蛋白质结构就会成为现实。以电脑跟人下象棋为例,随着算力的提升,就连国际象棋冠军也下不过电脑。后来,人们认为在围棋上,机器应该无法超越人类,因为围棋有 219×19 各种变化。
但没想到仅十几年光景,谷歌的 AlphaGo 就已打败世界围棋冠军李世石。而 AlphaFold 同样代表着人类对此方向的追求,其中包括在算法上训练如何破解蛋白质结构和验证晶体结构等。
机器掌握住规律之后,就可以不知疲倦地工作,于是才有了今天的竞赛成绩。王晨光表示,之所以比较轰动,是因为这个生物医学领域内公认的长期难以克服的难题终于有了量级的突破。
而之前参赛的团队,只有三四十分的准确度,这次 AlphaFold 甚至比人工晶体结构的准确度还要高。对于预测蛋白质结构之难,陈子博也表示:“主要难点在于这是一个很复杂的体系,蛋白质如何折叠和其所在的环境也有关(比如膜蛋白 vs 胞内蛋白)。”
而在 AlphaFold 未出现以前,科学家要想确定蛋白质结构,只能通过核磁共振、X 射线和冷冻电镜等技术,并且往往需要连续数年的反复试验才能得到结果,同时还得使用动辄造价数百万美元的实验设备。正因为难,才更加凸显预测蛋白质结构的价值,而该技术看似高深,却和看病用药密不可分。
能否让老百姓买药更便宜?
谈及 AlphaFold 对普罗大众的意义,陈子博表示,现在很多药物都是将人体细胞内某些特定的蛋白作为靶点,如果将 AlphaFold 和制药结合起来,在预测蛋白和小分子相互作用方面有所突破,那么将会极大加速新药的研发进程,同时降低制药的成本。
王晨光也表示,本次突破在生物制药领域的重要意义显而易见。传统的靶向药物,靶点大多是蛋白质。以肺癌药物为例,以 EGFR 蛋白质为靶点的药物过去 20 几年一直是研发热点。有了 AlphaFold 之后,它必然会给制药领域带来帮助。
因为很多药物的靶点蛋白质,寻找在蛋白质结构上找到能够被药物攻击的地方。因此如果不知道蛋白质结构,制药往往是 “两眼一抹黑”,只有知道它的结构,才可以有目的地根据其结面设计一些化合物。还是以肺癌靶向药物的 EGFR 为例。肿瘤在药物的选择压力下,用一种药物一段时间后往往不反应了,后来发现是基因发生了突变。而基因突变的后果是其表达产物蛋白质的氨基酸序列发生了变化。因此,开发另外一种针对该突变蛋白质的药物变成了临床需求。
AlphaFold 应该可以很容易地对突变后的蛋白质结构做到预测,对下一代新药研发将有极大帮助。此外,王晨光对 AlphaFold 的应用很是期待,他说从事药物研发的人,即便没有晶体结构等专业知识,也能通过 AlphaFold 来输入蛋白质名称,然后就可直观观察蛋白质结构,这将缩减制药环节中药物发现的流程。
当药企可以有的放矢地设计药物,那么药物研发周期也就相应可以缩短,这样等于在药物成分和功效不变的情况下,制药速度更快,那么老百姓买到的药物或许就能更便宜。
有望提高研究人员工作效率
有人说,AlphaFold 让老师和同学们都解放了,从此不再受制于结构解析手段,并能很快拿到结构、去探讨结构生物学核心问题。对于该说法,陈子博表示,这得看具体想解决的问题,结构生物学研究需要的结构,一般需要很高的精度,需要精确到每个残基的精确位置,这是 AlphaFold 目前还不能提供的。
图 | 残基相连的方式预测(来源:DeepMind)
王晨光表示,从一定程度上来讲,有了 AlphaFold,以后破解静态蛋白质结构会比以前更省劲,但并不是说学生不再需要努力。因为,AlphaFold 毕竟还达不到 100% 的准确性,学生想要了解一个蛋白质结构,在使用 AlphaFold 预测之后,仍然需要再通过其他方式来验证。但无论如何,AlphaFold 预测的参数,都能在破解蛋白晶体结构方面,给予人类很大帮助。
图 | AlphaFold 对两个蛋白的结构预测和实验测定结构的对比
不过,王晨光认为,多数蛋白质的三维结构不是静态的,而是处于不断的动态变化之中。蛋白质作为机体内执行功能的分子,受到身体内外各种因素的影响,结构也在变化中。而这种变化带来的复杂性依然是蛋白质解构的挑战,无论是传统方法还是 AlphaFold。即便 AlphaFold 当前在应用上仍有局限性,但这次技术上量级的突破显示,这只不过是时间问题。
从计算机算法的角度来看,已发表的第一版 AlphaFold,并未用到太多新技术,A因此该技术即使不开源,找个博士生花一两个月,肯定也能把算法实现出来。不过,AlphaFold 的第一版深度学习的模型非常重要,因为它决定着能否把相关结构恢复出来。
事实上,AlphaFold 的第一版性能相对一般,虽然拿到 CASP 13 竞赛第一名,但并没有引起轰动。第二版就提升了非常多,其精度跟实验室做出来的三维结构的预测结果已经相差无几。
对于谷歌这样一家科技公司,做出如此厉害的生物类成果,其实并不意外。AlphaFold 背后公司 DeepMind 是由谷歌收购而来,直到今天仍在保持独立运营。DeepMind 从创立开始,就花费大量精力在深度学习,特别是强化学习上,目的是希望解决一些实际问题。
再就是,谷歌并非只做互联网,其也在做健康和药物创新,因为他要不停地去找下一个增长点,而且 AlphaFold 团队本身就是 AlphaGo 班底,再加上谷歌也愿意烧钱,因此可以做成。这种成果现在越来越难诞生于高校,因为一般高校很难有这样的大算力、大数据和大团队。
陈子博也表示,和大众普遍认知相反的是,大公司往往比科研院所有着更好的资源,因为他们可以集中各方力量。而学术圈很难会有哪一个实验室,能像 DeepMind 一样招来如此多的行业领先人物。