大数据五种开源处理技术介绍

作者：杨鑫奇 2014-04-22 09:34:12

大数据领域的处理，我自己本身接触的时间也不长，正式的项目还在开发之中，深受大数据处理方面的吸引，所以也就有写文章的想法的了。大数据以Hadoop以及”NO SQL”为主的Mongo和Cassandra等数据库技术在展现。现在数据的实时分析将可能容易一些。现在集群的转换将越来越可靠,20分钟以内就能够完成。因为我们用表来支持?但是这些是仅仅是一些比较新的，未开发的优点和不平凡的大机会超过了这些常规的猜想。

你知道么，在现在的市场上超过25万个开源技术出现了。围绕在我们身边，这些越来越复杂的系统，就像我们看到的这样，看如下图表：

（点击可看大图）

在最少选择的情况下我们还是有很多选择的机会。哪些是你的目标?哪些是2000家公司接下来的财富?哪些项目是可以在真正的产品阶段使用的作为可靠的候选?哪些应该受到特别关注呢?我们做了详细的研究和测试，让我们一起看下5种新的撼动大数据的技术。这些是整理的几组新的工具，让我们一起来看看吧。

Storm 和 Kafka 是未来数据流处理的主要方式，它们已经在一些大公司中使用率饿，包括 Groupon,阿里巴巴和The Weather Channel等。Storm,诞生于Twitter,是一个分布式实时计算系统。Storm 设计用于处理实时计算,hadoop主要用于处理批处理运算。

kafka是由LinkedIn研发的一款消息系统作为一个数据处理的管道基础部分存在于系统中。当你一起使用它们，你就能实时地和线性递增的获取数据。

你为什么需要关心?

使用Storm和Kafka,使得数据流处理线性的，确保每条消息获取都是实时的，可靠的。前后布置的Storm和Kafka能每秒流畅的处理10000条数据。

像Storm和Kafka这样的数据流处理方案使得很多企业引起关注并想达到优秀的ETL(抽取转换装载)的数据集成方案。Storm 和 Kafka 也很擅长内存分析和实时决策支持。企业使用批量处理的Hadoop方案无法也难怪对实时的业务需求。在企业的大数据解决方案中实时数据流处理是一个必要的模块，因为它很优美的处理了“3v”–volume,velocity 和 variety (容量，速率和多样性)。Storm和Kafka这2种技术是我们(infochimps)最推荐的技术，它们也将作为一个正式组成部分存在于我们的平台中。Drill和Dremel 实现了快速低负载的大规模，即席查询数据搜索。它们提供了秒级搜索P级别数据的可能，来应对即席查询和预测，及提供强大的虚拟化支持。

Drill和Dremel提供强大的业务处理能力，不仅仅只是为数据工程师提供。业务端的大家都将喜欢Drill和Dremel.Drill 是Google的Dremel的开源版本。Dremel是Google提供的支持大数据查询的技术。公司将用它来开发自己的工具，这些是导致大家都密切的关注Drill的原因。虽然这些不是起步，但是开源社区强烈的兴趣使得它变得更成熟。

为什么你应该关心?

Drill和Dremel相比Hadoop更好的分析即席查询。Hadoop仅仅提供批量的数据处理工作流，这些也是缺点。

Hadoop生态圈使得MapReduce作为一个很亲切有利的工具应用于广告分析。从Sawzall到Pig到Hive,很多接口层应用的建立使得Hadoop更为友好，更接近业务，但是，像SQL体系，这些抽象层忽略一个重要的事实–MapReduce(或Hadoop)是为了系统化数据处理流程而存在的。如果你不担心跑的哪些任务? 如果你不关心这些产生的问题和去寻求答案，那就保持沉默,保持洞察力。“即席探索” — 如果你已经承担数据处理，你这么优化处理的速度?你不应该运行一个新的任务或者是等待，有时候考虑的时间还不如在问个新的问题。

在堆对比的工作流基础的方法论中，很多业务驱动的BI和分析查询都是很基本的和临时交互的，低延时分析。写Map/Reduce工作流在很多业务分析中是被禁止的。等待几分钟等Jobs启动，在等几个小时等执行完成这些无溢于数据的交互体验，这些对比，和缩放比较最终产生了基本的新的视野。一些数据科学家早已经推测Drill和Dremel将优于Hadoop，并达成共识，也有一些还在考虑中，还有少部分的狂热者立即拥抱变化，但是这些是主要的优点在更面向查询的和低延时的情况下。在Infochimps我们喜欢使用Elasticsearch全文索引引擎来实现数据库的数据搜索，但是真的在大数据处理中我们认为Drill将成为主流。

R是开源的强大的统计编程语言。自1997年以来，超过200万的统计分析师使用R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的S语言并迅速地成为了新的标准的统计语言。R使得复杂的数据科学变得更廉价。R是SAS和SPASS的重要的领头者，并作为***秀的统计师的重要工具。

为什么你应该关心?

因为它有一个非凡强大的社区在支持着，你可以找到所有的R的类库，创建虚拟的各类型的科学数据而不用新写代码。R之所以令人兴奋是因为维护他的人和新的每天的创造。R社区是大数据领域令人兴奋的地方之一。R在大数据领域是一个超棒的不会过时的技术。在最近的几个月里，几千个新特性被日益公开的知识基础为主的分析类型的分析师们介绍.而且，R和Hadoop协同的很好，作为一个大数据的处理的部分已经被证明了。保持关注：Julia ，是一个有趣的R的替代者，因为它不喜欢R的死慢死慢的解释器。Julia的社区虽然不怎么强大现在，但是如果你不是立即使用它的话，还是可以等等的。Gremlin 和 Giraph 帮助增强图形分析，并在图数据库像Neo4j和InfiniteGraph中被使用，和与Hadoop协同工作的Giraph中被使用。Golden Orb是另一个高层面的流处理的图基础的项目的例子。可以看看。图数据库是富有魅力的边缘化的数据库。它们和关系型数据库相比，有着很多有趣的不同点，这个是当你在开始的时候总是想用图理论而不是关系型理论。

另一个类似的图基础的理论是Google的Pregel,相比来说Gremlin和Giraph是其的开源替代。实际上，这些都是Google技术的山寨实现的例子。图在计算网络建模和社会化网络方面发挥着重要作用，能够连接任意的数据。另外一个经常的应用是映射和地理信息计算。从A到B的地点，计算最短的距离。图在生物计算和物理计算领域也有广泛的应用，例如，他们能绘制不寻常的分子结构。海量的图，图数据库和分析语言和框架都是一种现实世界上实现大数据中的一部分。图基础的理论是一个杀手级的应用，为什么这么说?任何一个解决大型网络节点问题，都是通过节点和节点之间的路径来处理的。很多富有创造力的科学家和工程师们，都很明白的用正确的工具来解决对应的问题。确保他们都能运行的漂亮并能被广泛传播。

SAP Hana 是一个全内存的分析平台，它包含了一个内存数据库和一些相关的工具软件用来创建分析流程和规范正确的格式来进行数据的输入输出。

为什么应该关心?

SAP 开始反对为固化的企业用户提高强大的产品，供开发免费使用。这个不仅仅是SAP开始为初创着想，让其使用Hana。他们授权培养社区解决方案，这些不寻常的做法是围绕Hana的结果。

Hana 假设其他的程序处理时候还不够快的解决遇到的问题，例如，金融建模和决策支持，网站个性化和欺骗检测等等。Hana***的缺点是”全内存“这意味着访问软状态的内存，这个是很明确的有点，但是这个也是相比磁盘存储来说很昂贵的部分。据组织者说，不用担心操作成本，Hana是快速的地延迟的大数据处理工具。

D3 本来不在列表中，但是它的亲切感，让我们认为有提它的价值。D3是一个javascript面向文档的可视化的类库，。它强大的创新性的让我们能直接看到信息和让我们进行正常的交互。它的作者是Michael Bostock一个纽约时报的图形界面设计师。例如，你可以使用D3来从任意数量的数组中创建H™l表格。你能使用任意的数据来创建交互进度条等。这里是一个D3的实际例子，创建2013年奥巴马的民意情况。使用D3，程序员能之间创建界面，组织所有的各种类型的数据。

虽然这篇文章不长，但是也费了我一段实际来翻译，翻译不足之处希望大家指正。其实看到这篇文章的时候，我就很想把它分享给喜欢它的人，得益于一个开放的环境，所以美国在IT领域总是这么的让人惊喜，当然我们也得跟上了。

开始正式的使用Hadoop已经有近一年的时间的了，这期间从百度出来，到初见在到现在的BitWare，在不同的公司，用不同的技术解决问题。但是本质上遇到的问题总是那么几个，当然现在很多公司也开始尝鲜的使用Hadoop的了。这个是大环境是如此，可以理解。

以下说说个人对文章的理解：

Storm和Kafka 从11年起，就开始关注了，Storm在阿里也有部分二线应用，但是整体而言，刚刚满一岁的Storm在nathanmarz大侠的打磨下越来越稳定了，并有部分线上的应用了。所以对这个技术，总体而言，我个人还是很看好的，因为现在使用hadoop无法实现实时的处理，使用HBase来为主要的数据库来使用了，暂时还是能解决，但是还是想尝试下Storm,Kafka的关注不是很多，不过这个配合起来使用，据说很赞，没有自己跑过。

Drill这个是Apache的开源项目，之前也看了Google Dremel的论文，无奈看不是很懂，现在也没有遇到这样的环境，而且社区才刚刚火起来，所以还没有很多的时间来跟进，暂时先搁置了。

R语言，之前在百度的时候，隔壁各位做的哥们就在使用R语言干活，这个可能是只有大公司能够有能力去真正的挖掘的方面吧，我们现在的业务中基本没有用到过，对于R还是很陌生，不过我个人任务，在不同的环境下使用不同的技术手段，犹如，博士声光电吹盒子，我们架个电风吹，是一样的实现吧。

对于图数据库领域，还真的是没有遇到过详细的应用，还没有机会进入这样的公司，所以还是束之高阁吧。

SPA这个公司，听过名字，但是没有具体的接触过，现在卖解决方案估计也不好过，弄个东西出来提高下知名度还是必须的。现在啃老本的时代已经过去的了。

***一个可视化的JS类库，兴趣不大，业务现在不去做前端的了，所以也还好。

责任编辑：彭凡来源：杨鑫奇的技术博客

大数据