距离AlphaFold 3亮相已经过去了4个月,但由于未公布代码且限量访问次数,我们对它的原理、机制和实际效用依旧知之甚少。
DeepMind团队表示要等到发布6个月后,也就是今年11月才会开源。
前两天3位牛津学霸放出的复现也仅仅完成了第一阶段,目前只能预测蛋白质,还无法用于DNA、RNA等其他生命分子。
然而,AF3的各路「踢馆者」正纷至沓来。
最近,一家名为Chai Discovery的初创公司发布了他们的最新模型Chai-1,能够对蛋白质、小分子、DNA、RNA、共价修饰等进行统一预测。
原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1
根据基准测试结果,Chai-1在药物发现的相关任务中达到了SOTA水平,甚至超过了AlphaFold 3,以及Meta FAIR的前ESMFold团队另起炉灶搞出的最新模型ESM3。
不仅性能好,Chai-1团队还撰写了一篇16页的技术报告,并开源了模型权重和推理代码,但仅限非商业用途。
论文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf
仓库地址:https://github.com/chaidiscovery/chai-lab
开发者们可以选择下载代码、在本地运行或修改模型,也可以通过服务器在线调用。
https://lab.chaidiscovery.com/
这个open程度,让人不禁回想起曾经既有代码又有论文的AlphaFold 2。
模型发布后,HuggingFace的CEO还直接发出了在线邀请:不如在HF仓库上也托管一份权重。
IBM大佬Alex Kaplan甚至把Chai-1的发布称为「药物发现的ChatGPT时刻」。
他表示,当下绝对是分子生物学的黄金时代,在可预见的未来,只需几行代码就能治愈所有疾病,而Chai-1或许就是AlphaFold之后我们朝着这个目标迈出的重要一步。
蛋白质领域的「原生多模态」
技术报告中提到,模型架构和训练策略大体依照了AlphaFold 3的论文,但有一个关键区别:
他们使用截止到2021-01-12的所有数据,仅训练了单个模型,而非针对不同的评估分别训练,此外还添加了一些新的功能。
与大多数需要MSA(多重序列比对)的结构预测工具不同,Chai-1可以在没有MSA的情况下以单序列模式运行,同时达到相近的性能。
除了利用序列信息,Chai-1也是一个「原生多模态模型」。
除了直接从序列信息进行建模的能力外,它还可以通过prompt接受新数据,例如实验得出的结合袋(pocket)、接触点(contact)和对接(docking)的约束条件。
这些约束条件能捕捉到复合物中不同物质在不同粒度上的相互作用信息,和结构模板提供链内距离的作用类似,但更注重提供链间距离的信息。
对比实验中发现,提供约束条件后,甚至可以为模型性能带来两位数的提升(图4A);但为了防止模型过于依赖约束条件导致过拟合,训练时对这些特征采用了dropout。
比如表位的约束——即使只有少量的接触点或结合袋残基的信息,也能使抗体-抗原结构预测的准确率翻倍,让AI在抗体工程中的角色变得更加实用。
根据DockQ上的可接受预测率基准,Chai-1能比基于MSA的AlphaFold-Multimer模型(67.7%) 更准确地折叠多聚体 (69.8%)。
这个结果,让Chai-1成为第一个仅使用单序列信息、无需MSA搜索,就能以AlphaFold-Multimer水平预测多聚体结构的模型。
在PoseBusters基准上,仅给出蛋白质序列和配体化学成分的信息时,Chai-1对配体预测结果的RMSD(均方根偏差)成功率为77%,超过了AF3的76%。
成立半年,拿出顶级模型
发布Chai-1模型的Chai Discovery成立于今年3月,是一家AI生物初创公司,就在几天前的9月9日完成了3000万美元的种子轮融资。
这轮融资由Thrive Capital领投,OpenAI和Dimension Capital也参与其中,交易完成后,Chai Discovery的估值已升至1.5亿美元。
目前Chai的员工数量还不到10人,但吸引了不少来自OpenAI、谷歌、Meta FAIR等顶尖机构的人才加入,大部分成员也曾是头部药物公司的AI负责人。
Chai Discovery团队的旧金山办事处
联合创始人兼CEO Joshua Meier本科和硕士都毕业于哈佛大学计算机科学专业,此外还拿到了化学专业的学士学位。
他高中时就在美国计算机奥赛中拿到了金牌水平的名次,并涉足生物技术领域的创业,在OpenAI、谷歌、Meta FAIR、布罗德研究所(隶属于MIT和哈佛)等机构都曾有丰富的研究和工作经历。
2021年,在FAIR工作的Meier和团队发表了一篇重要论文,创建了第一个Transformer架构的蛋白质语言模型ESM-1b,目前引用量已经达到1800+。
论文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118
作者列表中,还有不少熟悉的名字,包括当时还在哈佛的Pika创始人郭文景(Demi Guo),以及FAIR曾经的ESM团队成员Alexander Rives、Zeming Lin、Tom Sercu和Jason Liu。
根据LinkedIn信息,ESM团队解散后,Alexander Rives、Zeming Lin和Tom Sercu已经去了初创公司EvolutionaryScale,他们前段时间也刚刚发布新模型ESM3。
创立Chai Discovery前,Meier还曾担任生物技术公司Absci的首席人工智能官。
在种子轮中选择跟投的Dimension Capital投资人Zavain Dar最近发表了一篇文章,对投资想法进行了阐述,并高度赞扬了Meier和他的团队。
Zavain Dar表示,从2019年Meier先后入职Meta和OpenAI时,他们就非常关注Meier的工作。
短短几个月内,Chai-1就能够与业内财力雄厚、历史悠久的企业所开发的产品平起平坐,这让他们看到了,一个「短小精悍」的团队可以在极短时间内做出多少成就。
在Zavain Dar的文章和Chai Discovery的博客中,都谈到了当前阶段开放技术成果的重要性。
虽然Chai-1已经取得了非常卓越的成就,但我们才刚刚站在起跑线上。
要将生物学「从科学转变为工程」,还需要构建更成熟、更强调的基础模型,用于预测和重编程生化分子间的相互作用。
Chai-1的团队表示,他们坚信长期的获胜策略需要透明度和开放实验,当今的生物技术从业者就可以免费且轻松地应用这些前沿技术,将其转化为药物发现领域的实用价值。