大数据分析的理解和探索-51CTO.COM

如今，云计算的热潮似乎还没散去，行业厂商就已经开始关注下一个热点：大数据。而与以往的炒作周期一样，现在的大数据对于用户来说其来源比较混乱，因为供应商提出了自己独特的，并且经常相互矛盾的定义和术语。

大数据定议之所以混乱的最常见的原因，是人们将大数据存储与大数据分析的结果混为一谈。“大数据”一词起源于开源社区，其开发和分析过程比传统的数据仓库速度更快，扩展性更强，并且可以通过网络在用户每天产生的大量非结构化数据中提取价值。

大数据的存储是相关的，其旨在解决大量的非结构化数据，助长企业级的数据增长。而扩展NAS和对象存储这些技术支撑大数据存储，已经存在了多年，并且人们对此有着充分的了解。

在一个非常简单的层面上，大数据存储无非是存储用于产生大量的非结构化数据的应用程序处理的大量数据。这包括高清晰度视频流，油气勘探，基因组学等数据。

一个大型存储厂商的一位营销高管表示，其公司正在考虑将“海量数据”作为其大数据存储条目的名称。

大数据分析是比较紧急的和多方面的，但IT人员对其理解较少。大数据分析发展过程在历史上一直受到网络的推动。然而，大数据分析的应用程序正在发生在所有主要垂直行业领域，现在的快速增长是一个增长的机会，值得所有供应商进行炒作。

大数据分析是快速增长的多样化的区域。因此，试图确定它有什么用可能是无益的。但是，可以识别和鉴定大数据分析的技术特征和共同点。这些包括：

•在可扩展性方面，传统的数据仓库处理速度太慢，而且有限制;

•融合来自多个数据源的数据的能力，其中包括结构化和非结构化的数据;

•从数据来源获取信息是至关重要的，其中包括越来越多的移动设备、无线射频识别技术、网络，以及自动化技术。

此外，在多样性大数据分析中可以找到至少四个主要发展片段。这些片段是MapReduce，可扩展的数据库，实时流处理和大数据应用。

(1)MapReduce

ApacheHadoop是MapReduce段开始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件，描述了一种用于并行网络的数据处理称为MapReduce的概念。此后不久，ApacheHadoop的诞生成为一个开源实现MapReduce的过程。周围的社区正在快速成长，生产加载项扩展了企业数据中心内的ApacheHadoop的可用性。

Apache的Hadoop的用户通常在商用服务器建立自己的并行计算集群，各有专门存储在一个小型磁盘阵列的形式，最近，也开始采用固态硬盘(SSD)的形式。这些通常被称为“无共享”架构。而存储区域网络(SAN)和网络附加存储(NAS)的可扩展性和弹性，通常被视为缺乏I/O性能，这些集群需要超越标准的数据仓库的能力。因此，Hadoop的存储是直接连接存储(DAS)。然而，使用SAN和NAS的“二次”存储正在成为新兴的形式。

一个潜在的Hadoop用户面临的采购选择，从单纯的开源到高度商业化的版本，其范围内越来越广泛。Apache的Hadoop和相关的工具都可以免费在ApacheHadoop的网站下载。Cloudera的公司提供了一个商业版本，其中包括一些Cloudera的插件和支持。其他开放源代码的变种，如Facebook的distribution，也可以从Cloudera公司获得。其商业版本包括MAPR，EMC公司现在将其合并成一个Hadoop应用。

(2)可扩展的数据库

而Hadoop已经攫取了大部分的头条新闻，因为它在数据仓库环境下具有非结构化数据的处理能力，更有向大数据分析的发展空间。

结构化数据也得到了大量的关注。一个充满活力和快速增长的社区围绕NoSQL，这是一个开源的、非关系型、分布和横向扩展的数据库集合的结构，可以满足网络规模的数据库设计的高流量的网站和流媒体的需要。面向文档的实现包括MongoDB(如“humongous”DB)和Terrastore。

开源社区所产生的另一种面向分析的数据库是正在开发使用的scidb，包括环境观测和监测，射电天文学和地震，等等。

传统的数据仓库供应商并没有袖手旁观。甲骨文公司正在打造其“下一代”大数据平台，将利用其分析平台和内存计算的实时信息传递。Teradata公司最近收购了ASTER数据系统公司，将ASTER数据的SQLMapReduce添加到其产品组合中。

(3)实时流处理

对于多个数据流进行实时分析的StreamSQL从2003年开始使用，然而到现在为止，StreamSQL只能够渗透到一些比较小的小众市场，如金融服务，监视和通信网络监控等领域。而随着行业厂商和用户对大数据的兴趣不断增长，StreamSQL势必会得到更多的关注和寻找更多的市场机会。

Streamsql是生长计算研究的一个区域称为复杂事件处理(CEP)，对真实世界的事件数据的低延迟处理技术。无论是IBM，还是InfoSphereStreams公司，以及StreamBase系统公司的产品都在这个领域中。

(4)大数据应用

作为大数据分析的兴趣扩展到企业数据中心，供应商群体看到了一个机会，把一起大数据“家电”。这些设备的服务器，网络和存储设备集成到加速信息传递到一个机箱和运行分析软件用户。这些设备针对企业买家都会看重大数据设备易用性和价值，以及其固有的实施和使用的特点而推出的。围绕Greenplum数据库引擎这个领域的厂商，其中包括EMC公司，IBM和Netezza公司，MAPR公司最近推出了Hadoop商业化版本，预集成系统，内置设备，可与甲骨文和Teradata公司的版本相媲美。

大数据分析的大数据存储

大数据分析过程的从业人员一般都不喜欢共享存储。他们喜欢DAS的各种形式，从SSD到其内部并行处理节点的高容量的SATA硬盘。共享存储体系结构，如SAN和NAS，通常被认为是相对缓慢的复杂的，首先，是其价格昂贵。这些特点都不选用于大数据分析系统的系统性能，不能满足商品基础设施的低成本的蓬勃发展。

实时或接近实时信息传递是大数据分析的定义特征之一，因此，延迟是可以避免的，无论何时何地。在内存中的数据是良好的，至少比采用光纤传输到机械式硬盘要好，但也许比其他任何事情都更加糟糕，SAN在规模需要分析应用的成本让人望而却步。

在大数据分析中，有一个共享存储的案例。然而，存储厂商和一般的存储社区还没有成为大数据分析的实践者。这个例子可以在ParAccel的分析数据库(PADB)与NetAppSAN存储中看到。

数据存储技术的开发人员表示将存储看作从物理设备迁移到一个更虚拟和抽象的实体的实现。其结果是，共享存储环境可以并且应该被大数据从业者视为他们可以找到潜在有价值的数据服务，如：

(1)数据保护和系统可用性：基于存储的复制功能可以不需要数据库创建数据副本，当系统故障和数据损坏事件发生时，重新启动可以恢复系统。

(2)缩短部署新应用程序和自动化流程的时间：通过可重复使用的数据副本，当新的应用程序都可以在网上迅速被建立，提高业务灵活性。

(3)变更管理：共享存储可以帮助保持一个“永远在线”的能力，可能减少所需的改变和升级，以及对在线生产环境的影响。

(4)生命周期管理：当共享存储可以作为记录的数据库时，系统的演化变得更加容易管理，并且那些已经废弃的应用变得更加容易丢弃。

(5)节约成本：使用共享存储作为一个无共享架构，可以辅助DAS降低成本和处理器节点的复杂性。

以上提到的好处每个人都可以被映射到无共享架构的分析。我们可以期望看到更多的存储厂商这样做一段时间。例如，虽然尚未公布，EMC公司可以凭借其基于MAPR设备整合Isilon或Atmos公司的存储。

大数据是一个大问题

传统的数据仓库是一个大而相对较慢的生产商信息的业务分析。它从有限的数据资源，并依赖于反复的提取、转换和加载(ETL)过程。客户在快速寻找获取信息的基础上，从多个数据源同时淘汰掘金。大数据分析可以被定义，在一定程度上，需要从多个数据源解析大数据集，并产生实时或接近实时的信息。

大数据分析代表了一个巨大的机会。IT组织都在探索上述来自社交网络的繁荣，解析基于网络的数据源和提取价值分析技术。然而，现在有了一个更大的机会，那就是物联网成为了一种新兴的数据源。思科系统公司估计全球目前约有350亿个可以连接到互联网的电子设备。任何电子设备可以(有线或无线)连接到互联网，甚至汽车制造商正在建设连接到车辆的互联网。“连接的”汽车将在2020年成为司空见惯的事情，并产生数以百万计的瞬态数据流。

理解大数据分析

利用多个数据源，如物联网的力量将会远远超出传统的数据仓库技术。这将需要模仿人类大脑功能的过程。我们的大脑需要大量的感官数据流，并创建必要的相关关系，让我们知道我们在哪里，我们在做什么，最终我们在想什么，所有这些都是实时的。