1983到2012：大数据发展演进大事记-大数据发展历程大事件

近几年来，大数据一直是公共领域的一个热词，但其根源其实早已深植于整部IT发展史中。回溯过去30年，我们就会发现一些在影响着我们收集、管理和分析数据的关键事件，这些事件有助于解释为何大数据今天会如此热门的原因。

1983

IBM发布***的关系数据库管理系统DB2，使用结构化查询语言，很快成为政府部门的主流产品。

1985

面向编程(OOP)语言，如Eiffel开始流行。

1990

用于互联网搜索的***搜索工具Archie诞生。

1991

万维网(World Wide Web)利用超文本传输协议(HTTP)和超文本标记语言(HTML)逐渐成为信息共享的公共服务。

而Gopher作为互联网上分布、搜索和提取文档的TCP/IP应用层协议，可以说是早期Web的一个替代品。Gopher的出现导致了两个新的搜索程序，即Veronica和Jughead的出现。

1993

W3CCatalog发布，它是万维网上最早出现的搜索引擎。

1995

Sun发表Java平台，而Java语言则是1991年发明的。该平台在数据治理方面获得最广泛使用，在Web应用中尤其普及，逐渐取代了面对面的和书面的事务。

1972年开始运行的全球定位系统(GPS)这一年实现了全球运营能力。

1997

NASA阿姆斯研究中心的Michael Cox和David Ellsworth发表了一篇论述虚拟化的论文，探讨了计算资源无法即时处理的过大数据集的挑战。该论文写道：“我们称这一问题为大数据问题，”这可能是***提出大数据这一术语。

1998

Carlo Strozzi开发出一个开源关系数据库，并称其为NoSQL。十年后，一场开发NoSQL数据库以处理大型、非结构化数据集的运动开始启动。

谷歌公司诞生。

2001

万维网发明人Tim Berners-Lee提出“语义Web”这一术语，梦想着机器与机器交互“会让在Web上分析所有数据成为可能。”

维基百科发布。

2002

2001年9月11日，纽约遭受恐怖袭击。DARPA开始研制整体情报识别系统，综合了生物识别、语言处理、预测模型和数据库技术，是美国众多情报机构所进行的新型数据采集和分析努力之一。

2003

根据IDC和EMC的研究，电脑和其他数据系统在这一年中所产生的数字信息量超过了2003年之前历史上全人类所产生的信息总量。

2005

Apache Hadoop项目这一年诞生，它注定要成为治理大数据的基础。

美国国家科学基金会建议为“足够多的高质量数据科学家”创建职业路径，这些科学家主要处理日益增长的数字信息集合。

2008

连接到互联网上的设备数量超过了世界人口总量。

2011

IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量，并在美国著名智力竞赛电视节目“Jeopardy”上击败两名人类选手而夺冠。

用于NoSQL数据库的查询语言UnQL开始研发。

2012

奥巴马政府发布大数据研发倡议，该倡议涉及美国政府的六个部门的84项计划。美国国家基金会同时发布了《推进大数据科学和工程的核心方法及技术》。

IDC和EMC估计，2012年将产生2.8ZB的数据，但其中只有3%能够当做大数据来使用，能分析的数据量则更少。该报告预计，到2020年的数字世界将拥有40ZB的容量，是全世界所有海滩全部沙粒数的57倍!