科普篇：什么是大数据-什么是数据科学

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

到底多少数据量才算大数据?到底是结构化的，还是非结构化的?到底是要精确的真实的?......

如果我们冷静的思考一下，就会发现，大数据与我们息息相关(大数据已经融入了我们衣食住行的每个角落)，但同时又会发现，大数据所涉及到的这些特殊技术，离我们又是那么的遥远。

我们还是来看看，大数据到底改变了什么?它其实就是通过海量的数据处理，让我们做决策时变的更轻松，更靠谱。比如我们在网上购物时，它首先会告诉你某个商品有多个人评价，评价越多，也就意味着越多人买;当你点击去之后，就可以看到好评度是95%，还是98%?如果是在360浏览器中打开的话，还有一个价格趋势，告诉你历史价位走势如何，其他电商平台是不是更便宜?除此之外，还有其他同类或同价位商品的推荐与排名等。有了这些信息，你就掌握了做一个购买决策时的几个关键信息：

1、这款商品好不好卖?

2、这款商品口碑好不好?

3、这个价格便不便宜，现在是不是最便宜的时候?

4、有没有其他更好的商品?——这个时候，是否将这个商品改进购物篮并付款，做这个决定变得非常轻松。

那它是怎么做到的呢?就是化繁为简，将海量的数据，归纳整理为几个简单的指标。