解读测序密码是开启大健康领域的钥匙,高通量基因测序为快速迈入精准医疗时代提供了希望,但测序只是第一步,仅仅是得到了基因数据而已,还需要精准解读隐藏在基因大数据中的密码,才能真正揭示发病根源。
奇云诺德CEO罗奇斌表示:“在基因信息化时代,有两个很明显的标志:一个是基因数据搜索引擎的出现,另一个是基因产品的封装和实用性不断提高。基因信息化的形成需要对基因大数据的接入和搜索进行重新的定义。在生物信息技术和互联网技术的推动下,计算机对基因大数据的挖掘和解读正变得日益人工智能化。 ”
基因组有多大?基因数据研究有多重要?基因行业市场现状如何?
基因组有多大?每一个人的字母有30亿个,一个字母八个字节,也就是说一个人的数据量大约是3G。存储时要乘30倍重复,一个人最终原始数据是100D,可以扩充到1T的空间。
基因数据研究有多重要?基精准医疗里面最关键的是精准,而不是医疗。现在提倡的精准医疗中医疗是传统行业,精准是大数据行业。罗奇斌表示,通过对基因数据的研究,可以不通过影像学,仅仅通过一滴血就可以判断你是否得了肿瘤。当前已有基金数据,未来就不需要去存储这些影像学,也许每天抽一滴血就可以来做预防,而不是诊断。诊断是出现症状去看病。但是从现在开始,一个人一出生就可以做预防,做健康管理。
基因行业市场现状如何?最早做一个人的基因组需花38亿,平均下来一个字母生产出来需要1美金。现在产出100个D的数据需6500块钱人民币。IT界对这些数据进行分析,每分析一次收三千。于是就有了测一遍读万遍的商业模式,数据只有读取它,对其进行计算才会有价值。当下每一个人的基因组测序成本不到万元,精准医疗也随之火热起来。中国14亿人,接着每一个人的基因数据要读几遍。如一个应用都读一遍要付1000块钱,那么当一个每一个新的应用对这些基因信息的重新信用挖掘进行分析之后,产生价值我们是没有办法衡量的。但目前要做的就是让每个人先有基因数据,还没到数据变成信息,信息变成知识的过程。
什么是基因?基因可以决定哪些事情?
上面提到了基因数据研究的重要性和未来优越的市场前景,下面我们来看看之所以选择深入研究基因数据的根本原因。那什么是基因呢?基因就是在DNA序列上,有用的信息并且能够行使生物学功能的那部分那一段区域称之为基因。
致病因素
人之所以会生病,有一部分原因是由基因导致的。基因好比是在建一栋之前的图纸,建完这栋楼其实你已经知道这栋楼哪里是停车场,哪里是商铺,哪里是游泳池。所以基因可以决定我们的各种特征,父母通过基因特征转给后代,可以决定营养吸收的能力。所有疾病的发生都与基因密切相关,是内外(遗传和外界环境)因相互作用的结果。我们身体里致病基因与生俱有,易感基因与时俱变。罗奇斌表示,现在该公司已经做出精准模型,能算出大概多少个月之后准确得到某种癌症,而不是概率,这个已经全部做完。精准医疗的最终目的是为了人类的健康,想要做到精准理疗定离不开基因数据。
数据从哪来?需要什么数据?如何解读数据?
基因数据从哪来?罗奇斌表示,测序仪是基因数据的来源。目前全球一共有7389台高通量测序仪,分布在1027家机构,平均每家机构拥有7.2台。从lllumina进入市场以来,基因预测费用的下降速度远远超过按照摩尔定律预测的价格。
需要什么数据?罗奇斌表示,如整个生命体是个网络,每一个人的基因跟其它另外的基因是有关系的,每一个蛋白质跟其它蛋白质有关系的。可以算出来从一个蛋白质到另外一个蛋白质之间有最短的路径,这个路径应该是自然选择形成的。可以用数学的算法去模拟它,模拟的过程就是优化过程。可以把一个在大型机里面能够算几十年蛋白质结构的网络缩短为一分钟。那么就可以及时反馈,可以迅速算出在一个网络里面共进的一个蛋白应该要药厂去设计一个药靶,所以这就是赚钱的地方。回到IT,就是建立一个简单模型。这样就可以看到任何生命的数据可以被量化,整个生命被量化以后可以清晰的知道每一个数据,从DNA到INA到蛋白质,到细胞,到组织,到系统,到个人,但现在只做DNA。因为整个医疗数据太复杂,在这些数据中,最分析容易就是DNA。通过测序仪来侧基因,有哪些数据是可以测出来的呢?
什么是基因检测,就是从血液或从其他体液细胞中检测一个人DNA的技术。基因检测可以指导生活健康、及时诊断治疗、预防疾病、节省医疗为用。
基因检测流程
基因检测的显示意义
基因检测应用成果
数据怎么去解读?数据流的产生需经过Data-Information-Knowledg,如下图。在这个过程中,需要一个体系的建立,一个生态环境的成熟。
Data-Information-Knowledg
罗奇斌表示,目前生物信息的人很难找到,基因行业格局未定。还出现了基因信息太冗余和解读跟不上的瓶颈。解读跟不上取决于数据分析没有被封装模块标准化。针对这个情况,可以对基因行业产业链细分,最终实现精准数据挖掘。但这个过程就需要一个的数据引擎来做支撑。
关于奇云诺德搜索引擎
奇云诺德重新定义了搜索引擎,使其场景化和多维化。多维的数据交付给行业专家在特定场景下发挥有价值的应用。
数据库构成
数据库特点
奇云诺德整个数据库有多年的积累,可以对不同的数据类型以及这种基因,从不同的组织和细胞里面去产,最后进行一个不同的分析。在这部分罗奇斌举了几个案例有药物研发与基因大数据、耳聋基因检测策略等。
个人健康管理
个人健康管理有各种各样的端口输送,每一个都会给大家提供,包括大家的API接口对接的是APP,包括大家的网页经常看的侵入式,可以侵入到你的网站上去,直接可以看到有个模块。
肿瘤个体化医疗方案
肿瘤个体化诊疗的模型,包括刚才讲的人的全基因测序测完之后是30亿字母,一共是100据的数据。针对这么大数据量,可以把全部分拆,做成分布式。
奇云诺德解决的痛点
最后,罗奇斌简单的介绍奇云诺德,该公司的定位是分析引擎。通过引擎去理解整个大健康数据会不同的场景应用,向各种的企业级别提供服务,有提供API接口给行业需要者使用,有针对不同产品产品提供对接,还有可以提供产品转化的服务。同时欢迎更多IT的人进入到领域,希望从IT领域的人直接培养成为一个基因数据挖掘师。
本文整理自【WOT2015”互联网+”时代大数据技术峰会】期间,奇云诺德CEO罗奇斌主题为《解读测序密码——基因大数据解读》的演讲。
讲师简介:
罗奇斌,奇云诺德创始人,《互联网+》丛书联合作者和《互联网+基因空间》主编。中信出版社《互联网+医疗》联合作者。贝壳社BioMan成员。基因空间微信公众号和基因世界APP的内容主编, 2007年获得浙江大学沃森研究院生物信息学硕士学位,2008年获得德国DAAD全额奖学金赴慕尼黑工业大学生物信息学系攻读博士学位,专注于二代测序技术和互作网络在基因数据中的应用。2014年离开中科院创办奇云生物 (QY Genomics)和奇云诺德 (QY NODE),专注于通过互联网技术和生物信息分析技术帮助每一家生物企业,打造基因行业的工业4.0。