对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
到底多少数据量才算大数据?到底是结构化的,还是非结构化的?到底是要精确的真实的?......
如果我们冷静的思考一下,就会发现,大数据与我们息息相关(大数据已经融入了我们衣食住行的每个角落),但同时又会发现,大数据所涉及到的这些特殊技术,离我们又是那么的遥远。
我们还是来看看,大数据到底改变了什么?它其实就是通过海量的数据处理,让我们做决策时变的更轻松,更靠谱。比如我们在网上购物时,它首先会告诉你某个商品有多个人评价,评价越多,也就意味着越多人买;当你点击去之后,就可以看到好评度是95%,还是98%?如果是在360浏览器中打开的话,还有一个价格趋势,告诉你历史价位走势如何,其他电商平台是不是更便宜?除此之外,还有其他同类或同价位商品的推荐与排名等。有了这些信息,你就掌握了做一个购买决策时的几个关键信息:
1、这款商品好不好卖?
2、这款商品口碑好不好?
3、这个价格便不便宜,现在是不是最便宜的时候?
4、有没有其他更好的商品?——这个时候,是否将这个商品改进购物篮并付款,做这个决定变得非常轻松。
那它是怎么做到的呢?就是化繁为简,将海量的数据,归纳整理为几个简单的指标。