1972年,日本遗传学家大野乾给不能编码蛋白质的DNA片段起名为“垃圾DNA”。然而在2012年9月5日的这篇“80%的基因组是有功能”的报道中说明,这些大野乾称为“垃圾”的DNA实际上是一个庞大的控制面板,能调控数以万计基因的活性,并决定了一些基因的特质。如果没有这些开关的调控,基因将不能正常工作,而这些区域也许会导致人类患上疾病。这个发现震惊了整个科学界!
但是对于计算机领域的我们来说,神奇的不仅是ENCODE项目的成果,还有那些提供支持的基础设施。新闻稿还报道了ENCODE产生了15TB以上的原始数据,数据分析更是耗费了300年以上的执行时间!对于那些以大数据谋生的公司来说这也许算不了什么 — Facebook公布日处理数据超过500TB。但是别忘了,ENCODE的数据是在科学界中共享和存取的!
当我们试图去建立节约和有组织的大数据时,ENCODE项目还是值得我们借鉴的。它不只是提出了一些新的遗传物质真理 — 还是一个全球性的合作,需要32个实验室,收集和完成多于147个组织样本上超出1600多个实验产生的数据,然后进一步的使用这些数据收获更多的发现。
在近期一份来自ENCODE的报告中。UCSC Genome Browser项目主任ENCODE Data Coordination Center主事Jim Kent公布了一些难题。这些挑战来自确定实验是独立的、有价值的及它仍然能够产生精确的数据。
Kent及他的生物分子科学与工程数据协调小组(位于加州大学圣克鲁兹分校中心),就项目规模提出了许多挑战。首先,他们必须协调一部分来自世界各地制造数据的科学家。Kent还说,我们有5个数据收割者周游于各个实验室之间,在高峰期通常1周4次的电话会议还要辅以1年两次的大型会议,还有数不清的电子邮件和网络电话。
数据及活动进程/QA的管理的难题更是如影随形。基因数据管理Appistry公司的副总裁Sultan M.Meghji说,大部分的人都致力于数据的管理,好让它能一直保持最新。
该项目还使用了庞大的数据集。研究人员同样对结果分析工具进行了开发。其中包括为了追踪遗传分析细节而设计的数据库HaploReg和RegulomeDB。还有一个预配置的虚拟机提供托管和对项目所产生数据进行分析。当然数据会对研究者开放,该项目的参与者还鼓励有兴趣人士积极的学习如何使用数据并为他们提供了一个门户网站。
随着信息科技的发展,世界范围的互通性得到显著性的提高,以往以实验室为单位的科技研究将渐渐的被有组织的多实验室研究所替代。而随着云计算的发展、大数据的完善及新技术的问世,这些现有的难题必将被逐一解决!