惊!科学家可利用DNA将数据中心压缩至方糖大小

译文
大数据
微软与华盛顿大学的研究员们已经演示相关方案,旨在利用合成DNA作为数据归档存储介质。如果这项技术足够强大,则完全可以将沃尔玛这样的巨型企业的全部数据存储设备缩小为一块方糖尺寸,研究员们指出。

【51CTO.com快译】

  • DNA存储——延续千年的承载介质。

[[165502]]

微软与华盛顿大学的研究员们已经演示相关方案,旨在利用合成DNA作为数据归档存储介质。

如果这项技术足够强大,则完全可以将沃尔玛这样的巨型企业的全部数据存储设备缩小为一块方糖尺寸,研究员们指出。

“我们认为时机已经成熟,基于DNA的存储方案已经具备可行性,且能够立足于此设计并架构相关系统,”研究员们在其论文中写道。

该研究团队已经成功将来自四幅图片的数字化数据存储在合成DNA片段当中。更重要的是,他们亦能够逆转该过程——即从较大DNA池中检索正确序列,并利用提取到的完整字节重构图像。

[[165503]]

华盛顿大学计算机科学与工程研究科学家们混合DNA样本以实现存储功能。每条DNA中存储一个数字化文件。

另一项实验则证明,华盛顿大学的“卢旺达法庭之声”项目能够编码并检索数据,从而实现视频文件归档。该项目共使用49段视频,分别来自卢旺达战争罪法庭中对法官、律师以及其他相关人员的访谈。

“生命造就了DNA这一梦幻般的分子,其能够有效存储各类基因信息以及生命系统的运作方式——其非常紧凑且极为耐用,”威斯康星大学计算机科学与工程副教授、研究论文联合作者Luis Ceze表示。

“我们基本上就是在利用DNA存储数字化数据——包括图片、视频、文档,且其管理周期能够长达数百甚至数千年,”他补充称。

DNA数据存储研究进展神速。1999年,DNA存储方案还仅仅只能编码并恢复长度为23个字节的信息。

到2013年,来自英国EMBL欧洲生物信息学研究院的科学家们已经能够将马丁·路德·金的“我有一个梦想”演讲MP3文件存储在DNA当中。

研究员们在《自然》杂志上发表的论文中指出,只需一杯DNA即可存储至少长达1亿小时的高清视频数据。

而且根据英国研究员们的解释,存储在DNA链中的数据可以持续数万年之久。

读取DNA的方式非常简单,但向其中写入却难度很大。这方面共存在两项挑战:其一,利用现代方案仅能制造短DNA序列;其二,DNA在写入与读取时容易出错,特别是在重复相同的DNA字母时。

以上三幅图片为此次DNA数据存储实验中的对象。

微软与华盛顿大学的研究员们指出,他们开发出了“一种新型方案”,能够将长字符串转换为DNA序列的四种基本组成部分——腺嘌呤、鸟嘌呤、胞嘧啶与胸腺嘧啶,分别简写为A、G、C与T。

要访问这些数据,研究员们在DNA序列内编制出类似于邮编及街道地址的符号。聚合酶链反应(简称PCR)技术——常用于分子生物学当中——帮助他们能够更为轻松地识别自己正在搜索的邮编。

利用DNA测序技术,研究人员得以“读取”数据,并利用街道地址重新排序数据以将其恢复为视频、图片或者文档。

“将1和0转换为A、G、C和T非常重要,因为只有采用非常精妙的实现方式,我们才能提高存储密度并降低错误率,”论文联合作者Georg Seelig解释称。

微软与华盛顿大学的研究员们宣称,他们已经在编程语言与操作系统架构支持ACM国际大会上公布了研究成果。

“DNA拥有可观的发展潜力,”研究员们表示,因为其存储密度极高,理论极限比磁带高出八个量级。磁带技术能够在巴掌大的卡带中存储最高185 TB数据。

微软与华盛顿大学的研究员们还证实了合成DNA的长效性,称其能够在恶劣环境中带来超过500年的半衰期。相比之下,磁带寿命为10到30年,而磁盘驱动器则仅为3到5年——研究员们指出。

研究员们还强调称,预计到2020年存储于计算机中的全部数据——包括归档、视频、图片、企业系统数据以及移动设备信息——将达到44万亿GB,这一数字来自IDC与EMC的研究报告。

“这相当于2013年全部数据总量的十倍。虽然并非全部信息都需要进行长期保存,但可以肯定的是数据存储设备的增长速度完全跟不上数据的产生速度。”

不过在投入商业使用之前,DNA存储系统还需要克服一系列难题。首先,DNA合成与测序的效果还远称不上完美,每核苷酸中仍存在1%的排序错误率。因此,DNA存储需要设计出合适的编码方案,从而带来额外的容错能力。

再有,DNA存储不擅长实现随机数据存取,这意味着整体而言读取延迟远高于写入延迟。目前的进展只能够实现大型数据块存取;即使仅读取单个字节,也必须对整套DNA库进行测序与解码。

科学家们已经提出了对应的解决方案,即利用聚合酶链式反应(简称PCR)对需要的数据进行定向放大,从而通过针对性测序改善随机接入能力。如此一来,我们将不再需要对整套DNA库进行测序。

“这是我们借用大自然产物的绝对实例,”Ceze解释称。“但我们也在使用现有计算机技术对其加以完善,例如如何纠正内存错误,并让最终成果回归自然。”

原文标题:Scientists could use DNA to shrink a data center into a sugar cube

 

责任编辑:Ophira 来源: 51CTO.com
相关推荐

2017-08-04 15:53:10

大数据真伪数据科学家

2014-05-27 16:23:46

Twitter开放数据

2012-12-26 10:51:20

数据科学家

2018-12-24 08:37:44

数据科学家数据模型

2012-12-06 15:36:55

CIO

2018-02-28 15:03:03

数据科学家数据分析职业

2018-10-16 14:37:34

数据科学家数据分析数据科学

2012-06-12 09:33:59

2021-10-08 13:45:23

大数据数据科学家货币

2017-12-06 15:41:01

数据科学家机器学习预测

2012-12-27 09:52:23

数据科学家大数据

2019-08-26 09:47:56

数据科学家数据分析

2014-07-03 09:38:19

2020-03-20 14:40:48

数据科学Python学习

2020-04-09 15:32:20

数据科学AutoML代智能

2016-08-02 17:00:12

Hadoop大数据系统

2015-08-28 09:22:07

数据科学

2015-08-25 13:20:29

数据科学

2022-04-25 09:48:31

数据科学岗位离职

2016-04-11 14:15:06

数据科学数据挖掘工具
点赞
收藏

51CTO技术栈公众号