Cloud Dataflow比原生的Map-Reduce强在哪儿?

云计算
Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。

Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。Dataflow当前的API还只有Java版本(其实Flume本身是提供Java/C++/Python多种接口的,MillWheel也提供Java/C++的API)。

 

相比原生的map-reduce模型,Dataflow有几个优点:

1.可以构建复杂的pipeline,在这不妨引用Google云平台的产品营销总监Brian Goldfarb的话:

   Cloud Dataflow可以用于处理批量数据和流数据两种。在一个世界性事件(比如演讲当中的世界杯事件)中,实时分析上百万twitter数据。在流水线的一 个部阶段责读取tweet,下一个阶段负责抽取标签。另一个阶段对tweet分类(基于情感,正面负面或者其他方面)。下一个阶段过滤关键词等等。相比之 下,Map/Reduce这个用来处理大数据的较早模型,处理这种实时数据已经力不从心,而且也很难应用到这种很长很复杂的数据流水线上。

 

2.不需手工配置和管理MapReduce集群。自动进行代码优化和资源调度,使得开发者的主要精力可以放在业务逻辑本身。

 

3.支持从Batch到Streaming模式的无缝切换:

假设我们要根据用户在twitter上产生的内容,来实现一个hashtags自动补全的功能:

  1.  Example: Auto completing hashtags 
  2. Prefix Suggestions 
  3. ar #argentina, #arugularocks, #argylesocks 
  4. arg #argentina, #argylesocks, #argonauts 
  5. arge #argentina, #argentum, #argentine 

4.Dashboard:

 

5.生态系统:

BigQuery作为存储系统是Dataflow的一个补充,经过Dataflow清洗和处理过的数据,可以在 BigQuery中存下来,同时Dataflow也可以读取BigQuery以进行表连接等操作。如果想在Dataflow上使用一些开源资源(比如说 Spark中的机器学习库),也是很方便的

 

为了配合Dataflow,Google Cloud Platform还为开发者提供了一系列工具,包括云保存,云调试,云追踪和云监控。

比较

1.Cascading/Twitter Scalding:

  1. 传统Map-reduce只能处理单一的流,而Dataflow可以构建整个pipeline,自动优化和调度,Dataflow乍一听感觉非常像Hadoop上的Cascading(Java)/Scalding(Scala)。
  2. 它们的编程模型很像,Dataflow也可以很方便做本地测试,可以传一个模拟集合,在上面去迭代计算结果,这一点是传统Map-reduce望尘莫及的。

2.Twitter Summingbird:

将批处理和流处理无缝连接的思想又听起来很像把Scalding和Strom无缝连接起来的twitter summingbird(Scala).

3.Spark:

  1. Spark也有可以构建复杂的pipeline做一代码优化和任务调度的好处,但目前还需要程序员来配置资源分配。
  2. Spark在设计分布式数据集API时,模拟了Scala集合的操作API,使得额外的语法学习成本比Dataflow要低。
  3. 不过Dataflow似乎并没有提内存计算的事儿,而这一点可以说是Spark最本质的特征。不过它支持将parSk作为Open Source工具,连入Cloud框架作为补充。
  4. 分布式计算中除了Batch和Streaming,Graph也是一个重要的问题,Spark在这方面有GraphX,Dataflow在未来也会将处理Graph处理(Pregel)这块整合进去。

原文链接:http://www.open-open.com/lib/view/open1420689003765.html

责任编辑:Ophira 来源: open经验库
相关推荐

2020-06-28 07:49:06

WiFi 6WiFi 5网络技术

2022-07-01 06:03:08

WiFi 7WiFi 6

2010-06-03 16:46:23

Hadoop Map-

2014-03-18 10:16:58

SVM

2011-12-12 13:09:45

云计算

2015-08-27 13:45:25

2023-09-12 11:38:18

2019-07-23 16:00:36

区块链存储5G

2010-06-23 09:41:17

Amazon Simp

2022-02-25 10:03:11

对象数据算法

2021-12-01 07:26:12

AIOps企业

2013-12-04 09:33:15

软件成本

2014-04-17 10:16:50

2013-05-10 10:58:56

ERP

2020-02-11 17:15:09

开发者抛弃 Executors

2020-02-13 09:14:16

Executors开发Java

2020-04-21 16:01:13

自动驾驶新基建工信部

2017-10-11 11:17:16

SaaS出路中国式

2018-03-07 15:19:07

2020-03-25 09:20:21

自然语言处理
点赞
收藏

51CTO技术栈公众号