本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
AlphaFold2出世、强力抗生素Halicin的预测……
机器学习,已经在生物医药这一大领域贡献了不少成果。
然而,这一领域,此前甚至还没有大规模的机器学习数据集?
无论是查找、处理数据,还是验证模型效果,之前的研究,都只能在几个小型数据集、或是已经被反复研究的几个任务上进行。
这极大地降低了ML在生物医药领域的应用进展。
为此,一群来自哈佛、MIT、斯坦福等机构的研究人员,开发出了第一个ML领域的生物医药大型数据集TDC,还附带最新的模型评估方法。
这是个什么样的数据集?
TDC(Therapeutics Data Commons)数据集有三大特点:开源、大型、3行代码搞定。
这一开源数据集,包含20+有意义的任务,和70多个高质量数据集。
涉及的范围也非常广,包含生物医药的各种研究方向,如靶蛋白发现、药物动力学、安全性和药物生产等。研究目标也不局限于小分子,还包括抗体、疫苗、miRNA等。
使用起来也非常简便,只需要3行代码,就能获得ML-ready数据、使用TDC里面的各种功能。
TDC解决问题的3层架构
生物医药领域涵盖各种任务,每个任务都需要不同的数据结构来进行处理。
为此,TDC提出了一个三层式阶级架构Central Dogma (中心法则)。
第一层,模型要解决哪类问题?
- 单实例预测(Single-instance prediction): 预测单个实体(比如分子,蛋白)的某些性质。
- 多实例预测(Multi-instance prediction): 预测多个实体之间的某些性质(比如反应类型)
- 生成(Generation): 已知一系列的实体,生成新的拥有某些性质的实体(比如优化后的分子)
第二层,模型要学习什么样的任务?
从生物医药角度来定义,任务包括设计新的抗体、识别个性化的组合疗法、改善疾病诊断、寻找治疗新疾病的方法。
第三层,模型用什么数据集来训练?
根据任务类型,从TDC已有的数据集中挑选数据,用于训练模型。
根据这三层架构,就能非常轻松地找到需要用的数据集。
例如,想要检索Z类问题中的学习任务Y,Y中需要用到数据集X,只需要三行代码就能找到需要的结果。
TDC的数据集长啥样
TDC所包含的数据集和任务,大多是没有用机器学习进行过系统研究、但又极具潜力的应用方向。
例如,ADMET性质预测。其中,ADMET包含一系列药物指标,用于评估某种药物分子在口服后,能否安全有效地到达指定靶点。
此前,已有部分研究机构进行过ADMET预测,但都基于非公开数据。
TDC从各种小数据库、期刊等公开资料中,收集整理了20多个药厂目前在用的重要指标,并将所有数据进行了开源。准确预测这些指标,可以帮助药企节省大量资源。
又例如,对药物进行精准组合。
同种药物,在不同个体间会产生不同影响,尤其是肿瘤方向的药物。如果用机器学习,就能预测药物在各种基因表达下的效果,目前TDC也已经包含了这样的数据集。
此外,多药物分子组合,往往比单药物分子效果更好(drug synergy),如果能预测出两个药物分子的组合效应,能节省大量新药研发的时间,TDC也已经处理了这样的数据集。
还有生物药(Biologics)方向的任务。
近几年来,机器学习在小分子上已有许多应用,但在大分子生物药上的应用不多。
TDC也包含了6个生物药方面的任务,包括抗体和抗原的亲和力预测、多肽和MHC的亲和力预测、miRNA和靶点的反应预测等。
TDC的数据处理函数
除了核心数据集以外,TDC还能进行简单的数据处理,主要包括以下四点:
- 模型评估:TDC提供了一个评估函数。只需3行代码,就能评估TDC中的任务。
- 数据分割:TDC提供了一些训练和测试集的分割方法,用于模拟实际生物医药场景,如scaffold split等。
- 数据处理:TDC提供可视化、标签转化,二值化等工具。
- 分子生成任务:目的是让产生的新药物分子具有更好的性质。TDC收集了20多个有意义的任务,同样只需要3行代码,就能运行。
还可以刷新榜单排名
此外,TDC还提供各种类型的榜单(Leaderboard),给机器学习研究者对比模型预测的效果。
虽然TDC提供的每个数据集都能作为基准,但如果要真正评估一个机器学习模型,就要求其必须在一系列数据集和任务上达到更好的效果。
因此,TDC围绕各种有意义的生物医疗问题,合并了各种子基准、形成基准组合。
所有的衡量标准和训练、测试、分割的方式的设计目的,都是为了模拟实际生物医药的应用场景。
团队简介
TDC的开发和维护团队,由多个高校和机构的研究人员共同组成。
主要的5位开发者,分别是来自哈佛的黄柯鑫、佐治亚理工学院的符天凡、MIT的高文昊、CMU的赵越、斯坦福的Yusuf Roohani。
此外,还有他们的5位导师,也在这次数据集开发中做出了不少贡献。
目前,TDC数据集还在不断地更新和完善中,作者黄柯鑫表示,还会不断地更新如CRISPR、临床试验等方向的其他数据。
感兴趣的同学,可以戳下方传送门用起来了~
项目传送门:
https://zitniklab.hms.harvard.edu/TDC/
参考链接:
https://zhuanlan.zhihu.com/p/340254116