随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
为了能对后面内容的数据单位有一个大体的概念,我们可以先了解一下各数据单位。
- 1B (Byte 字节)=8b (bit 位
- 1KB (Kilobyte 千字节)=1024B
- 1MB (Megabyte 兆字节 简称“兆”)=1024KB
- 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB
- 1TB (Trillionbyte 万亿字节 太字节)=1024GB
- 1PB(Petabyte 千万亿字节 拍字节)=1024TB
- 1EB(Exabyte 百亿亿字节 艾字节)=1024PB
- 1ZB (Zettabyte 十万亿亿字节 泽字节)=1024EB
- 1YB (Yottabyte 一亿亿亿字节 尧字节)=1024ZB
在这个大数据时代,每一天,能产生多少数据呢?
据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。
那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD光盘叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。
据IDC预测,2025年,全世界每个联网的人每天平均有4909次数据互动,相当于每18秒产生1次数据互动。
互联网大数据
互联网时代,搜索引擎已经成为人们寻找日常解决方案的重要渠道。有事没事搜一下,已经成为工作与生活的常态。特别是智能手机的普及,让我们随时随地都在产生搜索数据。据Smart insight估计,目前全球每天有50亿次搜索,其中35亿次搜索来自Google,占全球搜索量的70%,相当于每秒处理4万多次搜索。而回到2000年,在那个时候,Google一年的搜索量才140亿次。智能手机让人们的社交生活彻底数字化,每天在社交网络上花费的时间越来越多,产生的数据量也相应地不断增长。
物联网大数据
随着物联网基础设施及智能手机、可穿戴设备的普及,我们每个人时刻都在产生大量的数据。我们也完全已经成为数字化的个体。
无处不在的物联网设备正在将世界变成一个“数字地球”。据HIS的数据预测,到2025年,全球物联网连接设备的总安装量预计将达到754.4亿,而这些联网设备也将会产生大量数据。
大数据的产生来源于互联网和物联网中,那么,二者有什么区别?
互联网大数据和物联网大数据的最大区别是:互联网大数据来源更加广泛,数据也更加多样;物联网大数据的数据格式会比互联网大数据更加规范标准;互联网大数据产生者主要是人,物联网大数据产生者是物。
互联网大数据具有多样性和复杂性
中国互联网络信息中心(CNNIC)已完成第44次《中国互联网络发展状况统计报告》,报告中详细分析了中国网民规模情况,截至2019年6月,中国网民规模达8.54亿,这个数字已经占据中国人口接近61%,同时我国网民还在不断的增加。
现在,互联网极大的方便了人们的生活,人们可以在网上购物、聊天、刷朋友圈、浏览新闻、发送微博、观看视频、玩游戏等,现在,几乎所有生活行为都可以在互联网上得到解决。我们可以通过多种方式上网,例如手机、电脑、平板电脑、电子手表等等,人们上网的入口越来越丰富,同时你的上网行为所产生的数据也会越复杂。
当人们上网时,它还会生成大量的行为数据。诸如购物订单、新闻、视频、查看的商品、通知之类的数据最终将存储在互联网公司的数据库中,且这个数据是巨大的。
我们也很难为互联网大数据定义一个统一的格式,每个网民都有自己的习惯行为,他们每天所产生的数据可以都是不一样的。互联网大数据产生者主要是人,物联网大数据产生者是物。
物联网设备产生的数据格式更规范标准,便于组织存储
物联网的最大特点,就是各种物联网设备相互连接以实现信息共享。物联网会实时上报监测到的环境指标,例如,在智慧农业中,通过土壤温湿度传感器,可以监测到土壤的水分温度湿度,从而调整是否需要浇水。如今,随着物联网的迅速发展,其应用领域也日益广泛,IoT设备每天都会生成海量数据。
同时,由于物联网大数据来自于物联网设备中,因此物联网采集什么样的数据以及数据格式在物联网设备的开发和部署之前都已经指定好,采集数据的程序也已经部署在物联网设备中,它只需要实时按照程序的命令执行。因此,物联网设备产生的数据没有复杂的数据格式,相较于互联网数据,格式也更加的标准。