面对多达250TB的数据集,纽约州立大学的研究人员用大规模硬件升级、以及使用基于R统计语言分析技术的方式,找寻解开疑难杂症病因的密码。
纽约州立大学(SUNY)布法罗分校是全球领先的多发性硬化症(Multiple Sclerosis)研究中心之一。在这里,基于大数据的分析正在帮助研究人员找寻潜在病因和治疗方法,以帮助患者缩短治愈周期。
目前多发性硬化症的病因尚未十分明确,但是业内普遍认为,多发性硬化症是由于病毒和基因缺陷等因素共同导致的,同时可能还与阳光和吸烟等环境因素有关。Murali Ramanathan博士是纽约州立大学研究中心数据密集发现创新的联执主任。他们开发了名为AMBIENCE的技术,这一技术能够让研究人员对多遗传变异——单核苷酸多态性(SNP)与增加患者罹患多发性硬化症风险的环境因素之间的交互作用展开更为高效地搜索。
用于这一多变量研究的数据集容量已超过250TB。同时,由于研究人员试图发现数千个遗传因素与环境因素之间的重大交互作用,因此数据分析需要更加强大的计算能力。在这项研究中,有两个主要障碍需要被克服:即对庞大数据集进行处理,并利用这些数据集创建复杂而易于定义的分析模型。研究人员不仅希望能够发现哪些个体变量更为重要,同时还希望能够发现哪些综合变量更为关键。
需要在商用硬件上运行抽样数据的算法几乎要花上一周的时间才能得到结果。研究人员很快就发现,要想对全部数据进行运算还要花上数周的时间。过长的运算时间可能会导致一些额外的问题,比如算法调整、数据变更,等等。
为了应对这些挑战,研究人员选择创建一个整合了IBM Netezza分析数据库工具和Revolution Analytics公司的商业版R语言的分析架构。Netezza可以将处理能力提升100倍,将分析所需要的时间由27.2小时缩短至11.7分钟。并行处理也非常关键,但这仅仅是一个开始。与此同时,一些分析操作在数据移出磁盘时就已经开始执行,而不是仅在主处理器上进行全部的处理工作,因此它们能够更快、更高效地进行分析。
在R统计语言的基础上,Revolution Analytics公司允许研究人员快速而方便地在模型中添加和移除变量,无需编写数百行代码。同时,他们还允许团队使用医疗记录、实验室数据、核磁共振成像(MRI)扫描和患者调查等数据集变量和大量因变量,以对这些变量中的交互作用展开研究。
过去,纽约州立大学的研究团队必须重新编写整个算法。现在,得益于新的系统,科研人员可以自行轻松地调整算法。借助于新的解决方案,研究人员能够使用新的算法,添加多变量和数据集进程。这些在以前都是不可想象的。得益于这些成就,研究人员目前正在转向更为复杂的研究,朝着解开多发性硬化症背后的神秘机制又向前迈进了一步。