一图简述大数据技术生态圈

大数据
下面是一张生态图,主要的组件都是为了方便大家从底层的MapReduce模型中脱离出来,用高层语言来做分布式计算,下文将分别为你作简述。

下面是一张生态图,主要的组件都是为了方便大家从底层的MapReduce模型中脱离出来,用高层语言来做分布式计算,下文将分别为你作简述。

1、HBase

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

2、Hive

Facebook领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。

3、Pig

Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。

4、Cascading/Scalding

Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。

5、Zookeeper

一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。

6、Oozie

一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。

7、Azkaban

跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。

8、Tez

Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。

责任编辑:未丽燕 来源: 不可错过的大数据
相关推荐

2016-01-07 13:19:21

大数据分析生态圈

2015-03-04 11:19:59

2020-12-17 11:04:22

2020-09-21 09:57:03

大数据大数据技术数据

2018-11-13 15:05:33

大数据MapReduce机器

2018-10-11 20:38:27

大数据生态圈分布式

2022-12-08 00:09:20

CSS生态圈技术趋势

2016-07-14 15:57:06

华为

2023-04-04 13:31:18

2012-06-15 10:03:57

2016-04-25 10:52:25

亿信华辰

2015-01-14 15:42:26

易传媒阿里巴巴

2017-05-18 11:40:22

互联网

2013-07-22 17:41:58

2019-01-15 08:58:40

Kubernetes生态圈Docker

2017-11-27 12:39:05

科天云协作云

2015-12-25 09:57:02

阿里云云栖大会大数据

2019-05-09 11:24:35

区块链供应链生态圈

2015-09-02 13:15:31

Python
点赞
收藏

51CTO技术栈公众号