MapReduce Hold不住?

数据库
本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。

本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。

背景

非实时计算几乎都基于MapReduce计算框架,但MapReduce并不是***的。对于搜索应用环境中的某些现实问题,MapReduce并不能很好地解决问题。

什么是MapReduce?

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

商用搜索引擎,像Google、Bing和Yahoo!等,通常在用户查询响应中提供结构化的Web结果,同时也插入基于流量的点击付费模式的文本广告。为了在页面上***位置展现最相关的广告,通过一些算法来动态估算给定上下文中一个广告被点击的可能性。上下文可能包括用户偏好、地理位置、历史查询、历史点击等信息。一个主搜索引擎可能每秒钟处理成千上万次查询,每个页面都可能会包含多个广告。为了及时处理用户反馈,需要一个低延迟、可扩展、高可靠的处理引擎。然而,对于这些实时性要求很高的应用,尽管MapReduce作了实时性改进,但仍很难稳定地满足应用需求。因为Hadoop为批处理作了高度优化,MapReduce系统典型地通过调度批量任务来操作静态数据;而流式计算的典型范式之一是不确定数据速率的事件流流入系统,系统处理能力必须与事件流量匹配,或者通过近似算法等方法优雅降级,通常称为负载分流(load-shedding)。当然,除了负载分流,流式计算的容错处理等机制也和批处理计算不尽相同。

最近Facebook在Sigmod 11上发表了利用HBase/Hadoop进行实时数据处理的论文,通过一些实时性改造,让批处理计算平台也具备实时计算的能力。这类基于MapReduce进行流式处理的方案有三个主要缺点。

  • 将输入数据分隔成固定大小的片段,再由MapReduce平台处理,缺点在于处理延迟与数据片段的长度、初始化处理任务的开销成正比。小的分段会降低延迟,增加附加开销,并且分段之间的依赖管理更加复杂(例如一个分段可能会需要前一个分段的信息);反之,大的分段会增加延迟。***的分段大小取决于具体应用。
  • 为了支持流式处理,MapReduce需要被改造成Pipeline的模式,而不是Reduce直接输出;考虑到效率,中间结果***只保存在内存中等。这些改动使得原有的MapReduce框架的复杂度大大增加,不利于系统的维护和扩展。
  • 用户被迫使用MapReduce的接口来定义流式作业,这使得用户程序的可伸缩性降低。

综上所述,流式处理的模式决定了要和批处理使用非常不同的架构,试图搭建一个既适合流式计算又适合批处理计算的通用平台,结果可能会是一个高度复杂的系统,并且最终系统可能对两种计算都不理想。

目前流式计算是业界研究的一个热点,最近Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等,加上 Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温。不过流式计算并非最近几年才开始研究,传统行业像金融领域等很早就已经在使用流式计算系统,比较知名的有StreamBase、Borealis等。

本文简单介绍几种业界使用的流式计算系统,希望流式系统的设计者或开发者们能从中获得启示。

图1 数据分析系统整体组成示意图

图1从整个分析系统的架构角度,给出了实时计算子系统所处的位置。实时计算系统和批处理计算系统同属于计算这个大的范畴,批处理计算可以是 MapReduce、MPI、SCOPE等,实时计算可以是S4、Storm等,批处理和实时都可以或不依赖统一的资源调度系统。另外,计算系统的输入、输出,包括中间过程的输入、输出,都与存储系统交互,可以是块存储系统HDFS,也可以是K-V存储系统Hypertable等。计算层的上层是数据仓库,或者直接和用户交互,交互方式可以是SQL-like或者MR-like等。

【编辑推荐】

  1. 数据库迁移之何去何从
  2. SQL Server数据库迁移偏方
  3. SQL Server数据库恢复案例分享
  4. SQL Server数据库最小宕机迁移方案
  5. 给你大型数据库迁移的五大建议
责任编辑:艾婧 来源: 程序员
相关推荐

2011-08-29 17:11:25

消费者航空订票网站

2011-09-15 21:18:52

移动互联网第二季苹果

2022-07-20 13:48:58

苹果裁员减缓招聘

2011-09-29 21:23:10

通信展网络·安全2011中国国际通信展

2022-08-30 22:22:23

developerArchitectu

2012-03-13 11:21:34

索尼AndroidVita OS

2011-09-20 17:38:17

2012-07-24 14:00:30

2011-11-04 16:01:01

2011-09-06 16:43:40

侠诺VPN

2011-02-23 10:56:01

员工

2018-11-14 14:33:33

MapReduce数据集计算

2023-05-15 10:02:00

分库分表数据

2011-09-12 14:54:55

神舟笔记本

2009-02-20 15:05:36

2019-07-09 17:39:12

存储

2017-03-08 14:35:22

存储云计算华云网际

2011-09-24 12:26:41

2017-09-08 13:50:50

MySQL开发实践

2011-09-22 09:38:27

CIO云计算
点赞
收藏

51CTO技术栈公众号