人工智能(AI)已经在过去十年左右的时间里从科幻变成了现实,并且正在颠覆(或可望颠覆)地球上几乎每个流程。比如帮助导航我们的汽车、飞机和太空飞船,可以在Netflix上建议用户看什么电影,也可以助力颠覆其他数十种事情,无论是大事情还是普通事情。
在这之中,制药业可以说是个真正的生死攸关产业。而且,制药业也在使用计算机和计算机工具(例如AI),但为什么AI在制药业里几乎就没有颠覆的影子呢?有些专家认为,制药行业仍然是效率最低的行业之一,亦是抵制技术颠覆的最后桥头堡。此外,专家们还表示,自上世纪50年代以来,尽管其他行业的生产力和效率都在不断提高,但制药业的效率却一直在下降。
举个例子,现在要将一种药物或新分子实体(NME)推向市场的成本超过26亿美元。这种费用(甚至包括失败药物尝试的费用)最终都会直接转移给包括你我在内的患者、客户和纳税人。
因此,笔者希望在本篇文章里相对客观地讨论一下传统药物发现的挑战性,包括目前AI在药物发现的方法以及该领域里新技术和新工艺革新的潜力。
赌一把:传统药物发现
要了解AI在小分子药物发现中的潜力和局限性,就要先了解制药公司传统上如何完成药物发现的流程,这一点很重要。
前面提到过,制药业是地球上风险最高的企业之一。小分子药物发现流程包括几个步骤:科学家提出疾病假说、确定目标、设计分子然后进行临床前研究,平均需要的时间为5年,可能的花费为数亿美元。临床开发过程可能还需要五年及外加数亿美元。干预措施则是在此过程的第一阶段(安全性)、第二阶段(有效性)及第三阶段(大规模安全性和有效性)里进行测试。
▲药物发现和开发的各个阶段:基于2010年Paul及其他人的“如何提高研发生产率:制药行业的重大挑战”文章整理(图:Alex Zhavoronkov,Insilico Medicine)
所以说,药物的发现类似于一个分子赌桌。在这个赌桌的轮盘上有超过2000种药物治疗目标及数千种疾病,而且每个患者在某种程度上都不尽相同。要在这么复杂的设置下为特定的患者小众群体选择正确靶标,几率小得荒唐。大家都知道在轮盘上下注极少会有丰厚的回报以及玩家必须在失败时淡定,其原因就在此。
尽管制药业是赌桌上的轮盘,但世界上最聪明的人却都在这个轮盘上下注,99%的概率,这些人都会输。而且每赌一把的时间为八年或更长,头四年里可以改赌注,从第二个四年临床试验开始,轮盘开始转动,这时就只能减少损失或是在其他临床计划上下更多的赌注。通常,那些在头四年里下注的人不会是在临床阶段决定减赌注或加倍下注的人。
AI帮衬、AI盼头还是AI噱头?
面对荒唐的几率而且是身处数据密集型环境,可能有人会觉得人工智能非常适合制药公司。而现实是,尽管现代技术进步在很多方面出现了重大颠覆,包括移动通讯和个人计算、互联网以及基因组测序等等,但开发药物的成本却还在不断增加。
实际上,利用AI提高几率的想法其实对于制药行业而言是利弊并存的。一方面,这可以为制药领域带来更多的投资和更多的人才。但另一方面炒作得厉害的同时药品价格仍在飞涨,这也导致了一些人更加持怀疑态度。制药业资深人士看到有希望的技术突破的出现,但却并未显着提高研发水平,因此,他们宁愿选择在药物发现过程的整个范围内逐步开发内部能力,而不是将筹码押在注特定的使能技术上。
现如今,“AI盼头”和“AI噱头”仍在角力。一方面,AI专家预测变革在即,而另一方面,持怀疑态度的药物研发专家却认为所有的最新进展只不过是增量式变化和噱头而已。
也是出于同样的原因,大多数行业专家对深度学习的前景也持怀疑态度。
利用深度学习打破噱头
我们常常听到AI是制药行业潜在救星的说法,其中有很多原因,比如,基于深度学习的模型(例如生成对抗网络,又名GAN)进行药物研发,这对于制药行业将会有极大影响。
在业界,第一篇有关“生成对抗网络”的论文是Ian Goodfellow在2014年发表的,如今,他被称为“GAN之父”。生成对抗网络可以视为两个深度神经网络之间的竞争——一个网络是生成器,根据所需的一组标准创建新颖的内容,另一个网络名为鉴别器,用于测试生成器输出的真假。这项技术一经提出几乎立马就推动了一些有趣结果的获取。几个小组在2016年里利用GAN用自然语言创建了逼真的图像。例如,GAN可根据描述“这只小鸟的胸部和冠是粉红色的,初级飞羽和次级飞羽为黑色”生成或“想象”出具有这种特征的大量鸟类图像等等。
几乎在同一时间里,我们的Insilico团队开始研究GAN是否可以用于发现用得上的新型化学结构或分子。从生成鸟类图片和DeepFakes走向创建超精密设计新的分子,听起来似乎是没什么逻辑的一步,但我们取得了相当大的成功,我们在2016年发表了一些早期同行评审论文,随后还发布了许多生成方法并且还开始将这些方法与深度强化学习结合在一起。
但尽管我们发表了几十篇论文,制药行业许多计算化学家和药物化学家却仍持怀疑态度。他们的怀疑也并非一无是处。要明确证明这些生成方法可以对制药业产生重大影响,唯一的方法就是选一种影响到数百万人的疾病,而不仅仅是选罕见疾病,然后利用AI方法完全用“无人干预”的方式识别该疾病里新的生物靶标,再以这种方式利用AI及针对AI所选择的目标生成新分子,然后在生物学分析、动物研究以及希望能在针对人类的研究中验证所生成的分子。
▲ 完整的环:靶标识别、小分子生成和验证用于证明AI在药物发现中的价值(图:Alex Zhavoronkov,Insilico Medicine)
但要这样做在学术界几乎是不可能的,因为费用非常昂贵,而且还需要具备分析开发和化学合成在内的多种专业知识,出于同样的原因,在初创企业中要这样做也是很困难的。因此,笔者预测:我们今年或明年将走到这一步——针对一种主要疾病的绝对新靶标、绝对新分子及对应该疾病的实验验证。并且在两到三年后,看到这些分子出现在第二期临床研究中。只有到了这个时候,怀疑论者才会满意。但这仍需要几年的时间。
AI在制药业的未来
总的来说,笔者对AI方法的未来持乐观态度,它可以生产为了改善健康和治疗疾病所急需的药物。诸如生成强化学习之类的方法组合和整合(以及量子计算的迷人前景),从而令我们对未来充满期盼。但我们务必对面临的挑战保持清醒态度。生物学很复杂,化学也很复杂,临床试验同样很复杂。要在三个很复杂的领域同时获得成功是件艰巨的任务!
▲完全整合的“制药 AI 大脑”:涵盖了药物发现和开发的所有领域(图:Alex Zhavoronkov, Insilico Medicine)
因此,制药AI成功的关键是要打造一个可用于识别生物靶标的庞大整合系统,这样的系统将有助于设计新分子并可以进行个性化治疗及预测临床试验结果。
同时,我们还需要一个庞大的制药大脑,可以横跨十年甚至更长的发现和开发周期,并可以将临床数据重新整合到目标发现里。
要完成这些任务可能要花几年的时间。科学家为了显着加速开发小分子药物发现的系统,就需要结合许多策略和方法,所以,他们必须是药物发现的多领域专家。
拿眼下的新冠疫情来说,传统及AI驱动方法的其实作用并不突出。笔者预计,在四个月内,所有FDA批准的药物里,大约会有百分之十会被用做诊治疗法,毕竟新药物的开发的还没有取得可观的临床结果。要显著加速药物的开发,科学家们在AI和实验室自动化方面还需要做大量的工作。