Storm、Spark和MapReduce 开源分布式计算系统框架比较

大数据 分布式 Spark
比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发。

[[152151]]

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的***项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早,知名度***的分布式计算框架,最早由 Google Lab 开发,使用者遍布全球(Hadoop PoweredBy);主要适用于大批量的集群任务,由于是批量执行,故时效性偏低,原生支持 Java 语言开发 MapReduce ,其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点,而且在时效性上有了很大提高,中间结果可以保存在内存中,从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持,多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计,因此在实时分析/性能监测等需要高时效性的领域广泛采用,而且它理论上支持所有语言,只需要少量代码即可完成适配器。

下面的表格是对三者部分特性的比较,描述时间为 2015-5-3,三个项目均处于快速迭代中,文中描述特性会随时产生变化,如果与官方文档产生出入以官方文档为准。

大数据

表格说明:

开源时间以 github 上最早的 commit 或者官网上最早发布版本的时间为准。

当前版本与特性描述截止 2015-5-3。

相关资料量通过比较官方文档、搜索引擎、论坛等途径得出。

部分比较数据来源于实践或相关文章(未找到出处)。

本文会保持更新,如果数据发现有出入,欢迎指正。

 

责任编辑:李英杰 来源: 36大数据
相关推荐

2010-06-03 19:46:44

Hadoop

2015-06-01 10:31:43

微软开源rDSN

2022-03-01 08:40:34

StormHadoop批处理

2013-09-11 16:02:00

Spark分布式计算系统

2019-06-27 09:12:43

FlinkStorm框架

2010-11-15 13:24:07

分布式文件系统

2015-07-16 15:30:34

分布式计算PS云计算

2014-04-09 14:59:55

Apache Spar

2018-07-17 08:14:22

分布式分布式锁方位

2024-03-01 09:53:34

2017-09-01 05:35:58

分布式计算存储

2012-10-11 14:31:57

FastDFSMogileFS

2017-04-12 09:29:02

HiveMapReduceSpark

2023-05-29 14:07:00

Zuul网关系统

2015-05-12 13:03:54

开源分布式存储HDFS

2021-09-14 18:27:08

Spark

2023-05-12 08:23:03

分布式系统网络

2018-05-10 09:34:21

spark存储系统

2023-04-19 16:51:54

分布式Primus开源

2017-10-27 08:40:44

分布式存储剪枝系统
点赞
收藏

51CTO技术栈公众号