前言
本文共分为上下两篇。从大数据的定义、发展历程、大数据VS小数据、大数据通用技术,以及安全行业大数据的角度,漫谈大数据相关概念及其在应用实践中的一些思考,同时分享大数据在流量分析和日志的简单实践,期望能给读者带来对大数据一个更好的认知和应用。
此篇为前序,我们将集中为大家解释大数据的定义、发展历程。
BIG DATA
何谓大数据
顾名思义,大数据就是很大的数据呗!以前叫数据处理,现在叫大数据处理,貌似现在不加个大字,都不好意思和别人说,加上大字,搞成大数据,瞬间高大上了。以前还有说法是海量数据,想想,海量比大应该更加形象生动。记得当年笔者博士论文题目就是海量数据…挖掘。大数据这个概念目前这么耳熟能详,也就是这几年的事情。那 “大数据”究竟是个神马?咱们先看几个大数据的定义。
维基百科中将大数据定义为:“Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.”,即:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。
IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。
国际权威咨询机构Gartner说:“大数据,就是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。
信息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
麦肯锡全球研究所说:“大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征”。
从这几个定义上来看,我们至少可以看出,从“数据”或者“海量数据”到“大数据”,不仅仅是修饰上的变化,也绝不仅仅是大部分人以为的海量数据和大数据是等同概念;不仅仅是数量上的差别,不是数据量多、大就是大数据了。那是什么呢?这里个人以偏概全总结几点:
(1)大数据的“大”是指用目前主流的软件工具无法处理或者无法快速处理的大,需要采用大数据的技术对数据进行处理;
(2)大数据是为了处理海量数据而催生的一种新的架构、新的技术,它存在的主要目的是快速、高频的处理海量异构的数据;
(3)大数据之“大”的基本属性是“量大”,但是更内涵的属性是“价值大”。大数据技术的核心价值是通过采用大数据技术对海量数据的存储检索,查询分析,数据挖掘等,产生数据简单统计分析所无法带来的新的价值,新的发现。
个人认为,这三点是根据定义总结出来的大数据核心思想,三个定义和内容并非并列重复的,它们是一个层级推进的关系。而这三点中,最能体现大数据核心的是第三点,采用大数据技术挖掘分析新知识、创造新价值。
当然,前些年听到的学术报告中,80%以上的Slide里面会有一页是所谓的5V,即大数据的五个主要特征: Volume、Velocity、Variety、Value、Veracity。这其实和上面提到的三点是一脉相承的,至于5V或者更多V的具体内容就不多赘述,读者自行Baidu即可知悉。
区别于传统意义上的数据处理方式(数据挖掘、数据仓库、OLAP等),在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等。所以,各大互联网公司越来越看重数据的价值,各大创业公司采用大数据分析的技术进行辅助决策,而大数据技术也成为了老生常谈的一个话题,成为很多公司的噱头和提升格调的一种姿态。
大数据真的是噱头么?发展历程梳理
大数据真的是噱头么?上节“何谓大数据”中提到大数据技术是很多公司的噱头(特别是创业公司),是提升格调做为“风口上那头飞猪”[i]的必杀神技,那么大数据真的仅仅只是一个噱头?这个问题可以负责任的告诉你,非也非也。
咱们先看看数据大爆炸吧。
根据国际数据公司IDC 的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万PB,到2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB),并且以每两年翻一番的速度飞速增长。预计到2020 年全球数据量总量将达到40ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型。其中,采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。
再看看大数据的发展历程(笔者认为的主要时间节点):
Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,号称三驾马车。这也成为后来大数据云计算发展的重要基石。
2005年Hadoop项目诞生。Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。
2011年5月,全球知名咨询公司麦肯锡全球研究所发布了一份报告《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
2012年,维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》宣传推广,大数据概念开始风靡全球。
2012年3月,奥巴马宣布美国政府五大部门投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”,欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。
2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。
2013年5月,麦肯锡全球研究所发布了一份名为《颠覆性技术:技术改进生活、商业和全球经济》的研究报告,报告确认了未来12种新兴技术,而大数据是这些新兴技术的基石。
2013 年,我国多位院士联合上书国务院,建议设立国家专项开展大数据技术研究,将大数据上升为国家战略。
2015年8月,国务院发表《促进大数据发展行动纲要》,正式将大数据提升为国家战略,旨在全面推进我国大数据的发展和应用,加快建设数据强国。
后续大家基本都知道了。
最后,我们再看看大数据相关发展应用情况。
在大数据领域,目前已实用化的国际知名项目包括:
(1)Google 知识图谱和深度学习、自动驾驶技术、Google 眼镜。
(2)Facebook 开放社交图谱数据。
(3)NSA 棱镜计划。
(4)IBM Watson。
(5)LinkedIn、Amazon、Netflix 推荐系统等。
国内的主要互联网公司,已将大数据技术应用到各自的业务中,用大数据技术发挥了重要的作用,取得了巨大的经济和社会效益。此外,在能源、医疗、交通等不同的行业领域,都用大数据产生了不可替代的作用。
在大数据技术人才培养方面,几十所高校申报了大数据专业,设置了大数据技术的相关硕士学位和课程,多学科交叉培养大数据技术人才。此外,大数据相关的十几家大数据领域国家工程实验室揭牌,各类大数据研究院也如雨后春笋般相继成立。看到这里,你还觉得大数据技术真的仅仅是个噱头么?可以说,的确是海量数据处理的必杀神技!
题外话
非噱头,但是必然存在泡沫,包括被烧热的互联网,被风吹起来的飞猪。笔者认为,其实少量的泡沫是必要而且具有推动作用的。任何一种神技或者新兴概念如果没有泡沫,默默无闻的发展,最后也将是默默无闻的死去。具有影响力的概念被炒作,会在一段时间内形成强大的原动力,使各行各业的人们为之付出或真或假、或实或虚的努力,将有力的推动这项技术的发展进程。当然,物极必反,泡沫太大,光会吹嘘,却没有脚踏实地,那也最终形成不了生产力。毕竟,飞得太高的猪如果摔下来,也是会死的。
[1] “飞猪理论”又称“风口论”,是指小米创始人雷军说过的一句话:创业,就是要做一头站在风口上的猪,风口站对了,猪也可以飞起来。这句话旋即成为创投圈流行语,也是“互联网思维”的最重要注脚之一,各行各业尤其是传统产业积极寻找风口,大家都希望成为下一个“飞猪”。
【本文为51CTO专栏作者“中国保密协会科学技术分会”原创稿件,转载请联系原作者】