本文列举了一些机构已开发或正在研发的、用以分析大数据的方法或工具。例如,美国BioDatomics公司开发了比传统软件分析速度快100倍的BioDT软件;加拿大多伦多的ACD/Labs公司开发的计算系统在处理大数据时能够整合各种数据格式;加利福尼亚州的IBM Almaden研究中心开发的文本挖掘工具;汤森路透NuMedii公司基于大数据的药物再利用。大数据除了以上三个含义,本文还提及大数据还应包含“复杂性”,并列举了马萨诸塞州的GNS Healthcare公司基于数据的复杂性而开发的REFS分析平台。最终,本文认为所有致力于研发大数据的努力都应该落在使大数据能够促进未来生物学和医学发展的方向上来。
大数据与生命科学
大数据是目前最热的概念之一,也是容易被曲解的概念。顾名思义,大数据意味着大量的数据,然而这只是从字面理解的含义。概括来看,大数据包括三层含义(3V):数据量大(volume of data),处理数据的速度快(velocity of processing the data),数据源多变(variability of data sources)。这是那些依赖大数据工具进行分析的信息的重要特征。
美国乔治华盛顿大学的计算生物学研究所主任Keith Crandall表示,尽管生物学家花费大量精力收集数据,实际上,现在生物学面临的瓶颈在于大数据。例如,2002年8月,对第一个人完整基因组测序工作,集中了20个研究所的专家,利用这些研究所所配置的基础设施,经历13年,投入30亿美元获得了约30亿核苷酸序列。而目前,为某个人测序仅需要1000美元,每周产生320多个基因组。随着研究人员不断开发方法,处理大数据的量、速度和可变性方面的问题,研究人员开始研发分析信息的新方法。
生命科学的数据来源和形式多样,包括基因测序、分子通道、不同的人群等。如果研究人员能解决这一问题,这些数据将转变成潜在的财富,即问题在于如何处理这些复杂的信息。当下,相关领域期待那些能分析大数据,并将这些数据转换成更好理解基础生命科学机制和将分析成果应用到人口健康上去的工具和技术的面市。
(1)“量”的持续增加
数十年前,制药公司就开始存储数据。位于美国波士顿默克公司研究实验室(Merck Research Labs)的副董事Keith Crandall表示,默克公司在组织成千上万病患参加的临床试验方面已经进展了好些年,并具有从数百万病患的相关记录中查出所需信息的能力。目前,该公司已经拥有新一代测序技术,每个样本就能产生兆兆位的数据。面对如此大数量级的数据,即使是大型制药公司也需要帮助。例如,来自瑞士罗氏公司的Bryn Roberts表示,罗氏公司一个世纪的研发数据量相比2011~2012年在测定成千上百个癌细胞株的单个大规模试验过程中产生的数据,前者只是后者两倍多一些而已。Roberts领衔的研究团队期望能从这些存储的数据中挖掘到更有价值的信息。因而,该团队与来自加利福尼亚州的PointCross公司进行合作,以构建一个可以灵活查找罗氏公司25年间相关数据的平台。这些数据,包括那些成千上万个复合物的信息,将利用当下以获得的知识来挖掘进而开发新药物。
为了处理大量的数据,一个生物学研究人员并不需要像公司一样需要一个专门的设备来处理产生的数据。例如,Life Technologies公司(目前是Thermo Fisher Scientific公司的一部分)的Ion个人化操作基因组测序仪(Ion Personal Genome Machine)。这一新设备能够在8个小时以内测序多达2 gigabases。因而可在研究人员的实验室操作。Life Technologies公司还有更大型的仪器,4小时以内测序可高达10 gigabases。
然而,对学术领域和产业领域的生命科学研究人员,新一代测序既提供了好处也带来了问题。正如Crandall所抱怨的那样,他们并不能有效研究如此多的基因组,除非开发的计算机系统能够满足分析大量数据的需求。基于这种现状,其领衔的团队与波士顿大学的医学助理教授W. Evan Johnson进行了合作,以开发分析新一代测序(next generation sequencing,NGS)平台产生的数据,进而能够将DNA的gigabases信息转化为计算机的千兆字节。该软件将DNA样本与参考基因组比较,以便确定病原体。Crandall表示,其每个样本存储的数据达20千兆字节,而这样的样本就有成千上万个,这样每个样本分析所产生的数据就相当多。
实际上,如此大数量的数据其实对于卫生保健来说其实十分有用,因为研究人员必须在设计其试验时充分考虑人群的多样性。来自剑桥大学的转化医学教授Chas Bountra表示,毕竟从50万人获得的结论比从10个人获得的结论要可靠有说服力得多。
也有研究人员期望看到在卫生保健方面基因组数据能产生越来越多的影响。例如,遗传信息可揭示生物标志物,或某些疾病的指示物(某些分子只出现在某些类型的癌症中)。英国牛津大学维康信托基金会人类遗传学中心(Wellcome Trust Centre for Human Genetics)的基因组统计学教授Gil McVean教授表示,基因组学为人来了解疾病提供了强有力的依据。基因组学可以为人类找到与某类疾病相关的生物标志物,并基于这一标志物进行靶向治疗。例如,正因为某个分子驱动某种癌症的进展,那么可以靶向这一分子进而治疗癌症。为了应用这一理念,McVean领衔的研究团队通过李嘉诚(Li Ka Shing)捐献的3 300万美元正在剑桥大学创建Li Ka Shing健康信息和探索中心(Li Ka Shing Centre for Health Information and Discovery)。该中心将成立一个大数据研究机构。McVean总结道,该中心将将分析数据过程和基因组研究结合在一起,这样他们将能够克服在收集大数据和分析大数据方面的一些难题。
(2)分析的高速性
第二个V,也就是velocity,意指处理数据和分析数据的速度要高要快。研究人员需要高速处理以便分析大量增加的数据。
过去,分析基因相关数据存在瓶颈。马里兰州的BioDatomics董事Alan Taffel认为,传统的分析平台实际上约束了研究人员的产出(产能),因为这些平台使用起来困难且需要依赖生物信息学人员,因而相关工作执行效率低下,往往需要几天甚至几周来分析一个大型DNA。
鉴于此,BioDatomics公司开发了BioDT软件,其为分析基因组数据提供400多种工具。将这些工具整合成一个软件包,使得研究人员很容易使用,且适用任何台式电脑,且该软件还可以通过云存期。该软件相比传统系统处理信息流的速度快100倍以上,以前需要一天或一周的,现在只需要几分钟或几个小时。
有专家认为需要测序新工具。新泽西州罗格斯大学电子计算工程系的副教授Jaroslaw Zola表示,根据数据存储方式、数据转换方式和数据分析方式,新一代测序技术需要新计算策略来处理来自各种渠道的数据。这意味着需要生物研究人员必须学习使用前沿计算机技术。然而,Zola认为应该对信息技术人员施加压力,促使他们开发出让领域专家很容易掌握的方法,在保证效率的前提下,隐藏掉算法、软件和硬件体系结构的复杂性。目前,Zola领衔的团队正致力于此,研发新型算法。
(3)多变性
其一,生物学实验室往往有多种设备,这些设备产生的数据是以某种文档形式存在。所以,加拿大多伦多的ACD/Labs公司开发的计算系统在处理大数据时能够整合各种数据格式。ACD/Labs的全球战略主管(director of global strategy)表示,该系统能够支持各种设备产生的150多种文档格式,这就有利于把多种数据汇集到同一个环境中,例如汇聚到其开发的Spectrus数据库中。该数据库可以通过客户端或网页访问。
生物学大数据还体现新型可变性, 。例如,德国Definiens的研究人员分析的组织表型组学(tissue phenomics),也就是一个组织或器官样本构造相关的信息,包括细胞大小、形状,吸收的染色剂,细胞相互联系的物质等。这些数据可以在多个研究中应用,例如追踪细胞在发育过程中的特征变化的研究,测定环境因素对机体的影响,或测量药物对某些器官/组织的细胞的影响等。
结构化数据,例如数据表格,并不能揭示所有信息,比方药物处理过程或生物学过程。实际上,生活着的有机体是以一种非结构化的形式存在,有成千上万种方式去描述生物过程。默克的Johnson认为有点像期刊文本文档,很难从文献中挖掘数据。
加利福尼亚州的IBM Almaden研究中心(IBM’s Almaden Research Center)的分析专家和研究人员Ying Chen领衔的团队数年来都致力于开发文本挖掘工具,目前他们正在使用的是“加速药物发现的解决方案”(accelerated drug
discovery solution)。这一平台集合了专利、科学文献、基础化学和生物学知识(如化学物质和分子之间相互作用的机制等),有1 600多万中化合物结构,近乎7 000种疾病的相关信息。利用这一系统,研究人员从中能够寻找可能对治疗某种疾病有用的化合物。
其他一些公司致力于挖掘现有资源,以发现疾病的生物学机制,基于此来研究治疗疾病的方法。汤森路透位于硅谷的NuMedii公司,致力于寻找现有药物的新用途,又称之为药物再利用(drug repurposing)。NuMedii的首席科学家Craig Webb表示,使用基因组数据库,整合各种知识来源和生物信息学方法,快速发现药物的新用途。之后,该公司根据该药物的原有用途中的安全性来设计临床试验,这样研发药物的速度快而且成本低。Webb描述了该公司的一个项目:研究人员从2 500多种卵巢癌样本中搜集基因表达数据,再结合数种计算机算法来预测现有药物是否具有治疗卵巢癌或治疗某种分子亚型卵巢癌的潜力。
(4)复杂性
诺华公司的生物医学研究所(Novartis Institutes for BioMedical Research,NIBR)的信息系统的执行主任Stephen Cleaver在三V的基础上还加了个复杂性(complexity)。他认为制药公司的科研人员通过某些病患个体,到某些病患群再到整合所掌握的各种数据分析数据,这一过程很复杂。在卫生保健领域,大数据分析的复杂性进一步增加,因为要联合各种类型的信息,例如基因组数据、蛋白组数据、细胞信号传导、临床研究,甚至需要结合环境科学的研究数据。