大数据发展简史

大数据
在研究《数据科学发展简史》之外,我也比较关注大数据是如何产生的。在这里,我着重探讨那段尝试确定数据量增长速度的历史,或者将其称之为众所周知的“数据爆炸”(据牛津英语辞典记载,这一术语首次使用于1941年)。

 以下是我所罗列的在计量数据量的历史过程中一些具有里程碑意义的事件,以及属于“大数据”概念进化历程中的一些“第一次”或者是新发现。

1944年

卫斯理大学图书馆员弗莱蒙特·雷德出版了《学者与研究型图书馆的未来》一书。他估计美国高校图书馆的规模每16年就翻一番。按照这一增长速度,雷德推测2040年耶鲁大学图书馆将拥有“约2亿册藏书,将占据6,000余英里书架…[需要的]编目人员超过6,000人。”

1961年

德里克·普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。普赖斯将其称之为“指数增长规律”,并解释道,“科学每前进一步就以一个相当恒定的出现率产生一系列新的进步。因此在任何时候,新科学的产生数量永远严格地与科学发现总量成正比。”

1964年4月

哈里·J·格雷和亨利·拉斯顿在美国电气与电子工程师协会(IEEE)的《电子计算机学报》上发表了《应对信息爆炸的技巧》一文,在文中,他们提出了以下建议:

    1)任何人都不应该发表新论文。2)如果1)不可行,仅短小的论文可以被发表。“短小”的意思是文章不超过2,500字符,空格、标点符号都计算在内。3)如果2)被采纳,则应该实行下述限制:“只有将现存总长度为2501或更多字符的文章删除一篇或多篇,短小的文章才可以被发表。”

    上述建议的实行将产生一个重要的副产品,即减轻人才选拔委员会的负担。因为一个人的出版物列表将仅被一个负数所代替,这个负数指代了他从现有信息存储中删除论文的净数目。

1967年11月

B·A·马里恩和P·A·D·德·梅恩在《美国计算机协会通讯》上发表了《自动数据压缩》一文,文章指出,“近年来被人们所关注的‘信息爆炸’使得对所有信息的存储需求保持在最低限度是非常必要的。”文章描写道:“全自动压缩机由三部分组成,能够快速处理信息,它可以被应用于‘任何’信息主体,大大降低了缓慢的外部存储要求,并可以通过计算机提高信息传输速度。”

1971年

亚瑟·米勒在《侵犯隐私》中写道:“太多的信息处理者看似是以个人档案存储容量的比特数目来衡量一个人。”

1975年

日本邮电部开始实施了“信息流普查”计划,以调查日本的信息总量(这一思想首次是在1969年的一篇文章中提出的)。普查以“字数总量”作为所有媒体的统一衡量单位。1975年的普查已经发现信息供给要比信息消费发展得快得多。1978年的普查报告指出“人们对单向传播的大众传媒所提供信息的需求停滞不前,对以双向传播为特征的个人通信媒体所提供信息的需求大规模增长…我们的社会正在进入一个新阶段…在这一阶段中,处于优势地位的是那些能够满足个人需求的碎片性的、更为详细的信息,而不再是那些传统的被大量复制的、一致性的信息。[阿利斯泰尔·D·达夫,2000;参见马丁·希尔伯特,2012]

1980年4月

I·A·特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从?》。在报告中,他指出“那些很早以前就熟悉存储装置的人们发现,‘帕金森第一法则’可以被用来解释我们的现状——‘数据扩展至任何可用空间’…我相信大量数据正在被保留,因为用户无法识别无用的数据;相较于丢弃潜在有用数据的不利后果,存储无用数据的损失不那么明显。”

1981年

匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。这项研究一直持续至今。1993年,匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。[见伊斯特万·迪恩斯,1994;马丁·希尔伯特,2012]

1983年8月

伊契尔·索勒·普尔在《科学》杂志上发表了《追踪信息流》一文,通过对1960年到1977年17种主流通讯媒体发展趋势的观察,他得出如下结论“这些媒体为10岁以上的美国人创造的可用词汇以每年8.9%的速度增长…事实上这些媒体创造的、真正参与流通的单词仅以每年2.9%的速度增长…在上述期间,信息流的增长在很大程度上是由于广播的发展…但是在那段时期末 [1977年]情况发生了变化:点对点的媒体比广播发展得快。”普尔、伊诺兹、高崎、赫维茨在《通信流:一项美国与日本的信息普查》中做了后续研究,这本书对美国和日本所产生的信息量进行了比较。

1986年7月

哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文。贝克尔预计“古滕堡所实现的记录密度大约是每立方英尺500个符号(字符),是公元前4,000年苏美尔人泥土片记录密度的500倍。到2000年,半导体随机存取存储器将能够在每立方英尺存储1.25×1011个字节。”

    对于数据存储而言,1996年数字存储就比纸张存储更能节约成本,这是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日IBM系统期刊》上所发表的《存储系统的演进》一文中指出的。

1997年10月

迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。文章以下述内容开头:“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘、甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

1997年

迈克尔·莱斯克发表了《世界上究竟有多少信息?》一文,莱斯克得出以下结论“世界上的信息总量近乎几千PB;到2000年,磁带和磁盘的生产将达到上述水平。因此,在短短几年内,(a)我们可以存储任何信息——没有信息不得不被放弃,(b)人们再也不会看到典型的信息片段。”

1998年10月

K·G·科夫曼和安德鲁·奥德里科发表了《互联网的规模与增长速度》一文。他们认为“公共互联网流量的增长速度,虽然比通常认为的要低,却仍然以每年100%的速度增长,要比其他网络流量的增长快很多。然而,如果以当前的趋势继续发展,在2002年左右,美国的数据流量就要赶超声音流量,且将由互联网主宰。”奥德里科随后建立了明尼苏达互联网流量研究所(MINTS),跟踪2002年到2009年互联网流量的增长情况。

1999年8月

史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章(这篇文章有一个部分的标题为“大数据的科学可视化”)。文章开篇指出:“功能强大的计算机是许多查询领域的福音。它们也是祸害;高速运转的计算产生了规模庞大的数据。曾几何时我们认为兆字节(MB)的数据集就很大了,现在我们在单个模拟计算中就发现了300GB范围的数据集。但是研究高端计算产生的数据是一个很有意义的尝试。不止一位科学家曾经指出,审视所有的数字是极其困难的。正如数学家、计算机科学家先驱理查德·W·海明指出的,计算的目的是获得规律性的认识,而不是简单地获得数字。”10月份,在美国电气和电子工程师协会(IEEE)1999年关于可视化的年会上,布赖森、肯怀特、海门斯与大卫·班克斯、罗伯特·范·里拉和山姆·思尔顿在名为“自动化或者交互:什么更适合大数据?”的专题讨论小组中共同探讨大数据的问题。

2000年10月

彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果:《信息知多少?》。这是在计算机存储方面第一个综合性地量化研究世界上每年产生并存储在四种物理媒体:纸张、胶卷、光盘(CD与DVD)和磁盘中新的以及原始信息(不包括备份)总量的成果。研究发现,1999年,世界上产生了1.5EB独一无二的信息,或者说是为地球上每个男人、每个女人以及每个孩子产生了250MB信息。研究同时发现,“大量唯一的信息是由个人创造和存储的”(被称为“数字民主化”),“数字信息产品不仅数量庞大,而且以最快的速度增长”。作者将这项发现称为“数字统治”。莱曼和瓦里安指出,“即使在今天,大多数文本信息都是以数字形式产生的,在几年之内,图像也将如此。”2003年,莱曼与瓦里安发布了最新研究成果:2002年世界上大约产生了5EB新信息,92%的新信息存储在磁性介质上,其中大多数存储在磁盘中。

2001年2月

梅塔集团分析师道格·莱尼发布了一份研究报告,题为《3D数据管理:控制数据容量、处理速度及数据种类》。十年后,3V作为定义大数据的三个维度而被广泛接受。

2005年9月

蒂姆·奥莱利发表了《什么是Web2.0》一文,在文中,他断言“数据将是下一项技术核心”。奥莱利指出:“正如哈尔·瓦里安在去年的一次私人谈话中所说的,‘结构化查询语言是一种新的超文本链接标示语言’。数据库管理是Web2.0公司的核心竞争力,以至于我们有些时候将这些应用称为‘讯件’,而不仅仅是软件。”

2007年3月

约翰·F·甘茨,大卫·莱茵泽尔及互联网数据中心(IDC)其他研究人员出版了一个白皮书,题为《膨胀的数字宇宙:2010年世界信息增长预测》。这是第一份评估与预测每年世界所产生与复制的数字化数据总量的研究。互联网数据中心估计,2006年世界产生了161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。据2010年和2011年同项研究所发布的信息,每年所创造的数字化数据总量超过了这个预测,2010年达到了1,200EB,2011年增长到了1,800EB。

2008年1月

布雷特·斯旺森和乔治·吉尔德发表了《评估数字洪流》一文,在文中他们提出到2015年美国IP流量将达到1ZB,2015年美国的互联网规模将至少是2006年的50倍。

2008年6月

思科发布了一份报告,题为《思科视觉网络指数——预测与方法,2007-2012》,作为“持续跟踪和预测视觉网络应用影响的行动”的一部分。这份报告预言,“从现在到2012年,IP流量将每两年翻一番”,2012年IP流量将达到0.5ZB。这份预测比较准确,正如思科最近一份报告(2012年5月30日)指出的,2012年IP流量刚刚超过0.5ZB,“在过去的5年中增长了8倍”。

2009年12月

罗杰·E·博恩和詹姆斯·E·少特发表了《信息知多少?2009年美国消费者报告》。研究发现,2008年“美国人消费了约1.3万亿小时信息,几乎平均每天消费12小时。总计3.6泽字节(ZB),10,845万亿单词,相当于平均每人每天消费100,500单词及34GB信息。博恩、少特和沙坦亚·巴鲁在2011年1月发表了《信息知多少?2010年企业服务器信息报告》,继续上述研究。在文中他们估计,2008年“世界上的服务器处理了9.57ZB信息,几乎是95,700,000,000,000,000,000,000字节信息,或者是10万亿GB。也就是平均每天每个工作者产生12GB信息,或者每年每个工作者产生3TB 信息。世界上所有的公司平均每年处理63TB信息。”

2010年2月

肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。库克尔在文中写道:“…世界上有着无法想象的巨量数字信息,并以极快的速度增长…从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。”

2011年2月

马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了《世界存储、传输与计算信息的技术能力》一文。他们估计1986至2007年间,世界的信息存储能力以每年25%的速度增长。同时指出,1986年99.2%的存储容量都是模拟性的,但是到了2007年,94%的存储容量都是数字化的,两种存储方式发生了角色的根本性逆转(2002年,数字化信息存储第一次超过非数字化信息存储)。

2011年5月

麦肯锡全球研究院的詹姆斯•马尼卡、迈克尔·崔、布雷德·布朗、杰克斯·卜黑、理查德·多布斯、查尔斯·罗克斯伯勒以及安杰拉·孔·拜尔斯发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》。他们指出:“到2009年,对于美国所有的经济部门而言,平均每个有1,000名以上员工的公司所存储的数据至少有200TB(是美国零售商沃尔玛在1999年数据仓储的两倍)”证券和投资服务部门所存储的数据处于领先地位。总的来讲,这项研究估计2010年所有的公司存储了7.4EB新产生的数据,消费者存储了6.8EB新数据。

2012年4月

《国际通信学报》出版了“信息计量”专题,这是多种测量信息量的研究方法与研究结果的专题。在《追踪家庭信息流》一文中,诺伊曼、帕克和潘尼克(运用前文提到的日本邮电部和普尔的研究方法)估计,为美国家庭所提供的所有媒体信息从1960年的每天50,000分钟增长到2005年的900,000分钟。根据2005年的供需比例,他们估计美国人“1分钟所需消费的信息有1,000分钟的媒体内容可供选择。”在《信息的国际化生产与传播》一文中,邦妮和吉尔(运用上文中莱曼和瓦里安的研究方法)估计2008年世界产生了14.7EB新信息,接近2003年信息总量的三倍。

注释:我有意没有考虑对信息价值(和成本)的讨论,及用金融术语和/或信息/知识工作者的数量来衡量信息经济(例如马克卢普、波拉特、谢曼特)的尝试。同样没有考虑的还有很多有意思的关于“信息超载”的参考文献,或者是相似的术语,詹姆斯·格雷克在最近出版的《信息》(详见第15章)一书中对这些术语进行了调查。格雷克在克劳德·申农的注释中发现了申农(1949年)试图判定具有“比特存储容量”的各种事物,如穿孔卡片、“人类遗传学构造”(格雷克指出,申农是提出“基因组是一个信息库,并以比特为单位进行衡量”的第一人)、唱片。在申农的列表里,最大条目是拥有100万亿兆比特的美国国会图书馆。

        如果您认为还有相关事件、里程碑、研究、或者发现,请告知我。

 译者附:

字节的次方单位

 

十进制前缀

SI

二进制前缀

IEC 60027-2

名称(英)

名称(中)

缩写

次方

名称

缩写

次方

kilobyte

千字节

KB

103

kibibyte

KiB

210

megabyte

兆字节

MB

106

mebibyte

MiB

220

gigabyte

吉字节

GB

109

gibibyte

GiB

230

terabyte

太字节

TB

1012

tebibyte

TiB

240

petabyte

拍字节

PB

1015

pebibyte

PiB

250

exabyte

艾字节

EB

1018

exbibyte

EiB

260

zettabyte

泽字节

ZB

1021

zebibyte

ZiB

270

yottabyte

尧字节

YB

1024

yobibyte

YiB

280

http://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82

原文出处:A Very Short History of Big Data

责任编辑:彭凡 来源: 图林中文译站
相关推荐

2022-04-25 15:55:58

C 语言编程语言Java

2012-09-21 13:30:51

Java多线程Java发展

2018-03-21 06:47:02

移动通信5G互联网

2011-06-23 12:02:43

SPARC云计算服务器

2017-06-21 20:54:40

电子技术计算机电子

2014-12-16 19:05:51

Informatica大数据

2021-08-14 09:23:03

即时通讯IM互联网

2021-07-05 09:40:25

iSCSI存储协议以太网

2009-07-03 11:47:00

2021-04-12 09:35:23

大数据据分析数据

2020-12-24 13:26:02

大数据大数据发展

2017-06-23 11:48:30

大数据智慧政务信息通信

2022-06-08 14:29:00

大数据数字化疫情防控

2020-12-04 09:30:18

HTTPWeb前端

2022-06-27 08:00:00

无代码软件编程程序员

2015-12-01 10:36:11

2009-06-10 18:08:14

2020-09-29 11:51:30

云计算

2019-02-20 15:00:57

大数据数据大数据技术

2015-09-06 09:23:15

点赞
收藏

51CTO技术栈公众号