Twitter开源了其流处理框架Summingbird

开源
Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。为了处理5亿的Tweet并能持续成长,Twitter开源了其MapReduce流处理框架Summingbird。

Twitter开源了其MapReduce流处理框架Summingbird。Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。它基于Apache 2许可发布。

现在的软件栈需要手工集成MapReduce (Pig/Scalding)和基于流(Storm)的代码,为了处理5亿的Tweet并能持续成长,Twitter必须寻找一个替代品。关于创建Summingbird的主要动机,Twitter的工程师提到,在于他们意识到,由于以下原因,在Storm上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与Hadoop进行协作,或者是通过某种定制的日志加载机制形成通过Storm的流。
  • Storm专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了Summingbird这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行***的聚合并提供合并结果

Summingbird也是***批可以公开获得的Lambda架构兼容系统中的一个。类似的项目包括Yahoo的Storm-YARN 和一家西班牙创业公司即将发布的Lambdoop。Lambdoop是一个Java框架,用于以与Lambda架构一致的方式开发大数据应用。Lambda架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如Twitter、LinkedIn等)到金融行业(欺诈检测和推荐)等。

Summingbird的主要设计者Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物Dennis Ritchie的侄子)和Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持Apache Spark和列式数据存储格式Parquet
  • 在Summingbird的Producer原语之上的高层数学库和机器学习代码
  • 与 相关开源项目(比如Algebird和Storehaus)更深度的集成

查看英文原文:Twitter Open-Sources its MapReduce Streaming Framework Summingbird

责任编辑:黄丹 来源: infoq
相关推荐

2012-04-11 09:52:32

开源MySQL

2012-04-10 13:48:58

MySQL

2012-04-11 09:35:04

TwitterMySQL

2020-11-16 08:54:05

Google 开源技术

2012-07-20 15:03:49

微软开源

2022-12-14 09:51:04

Twitter开源

2013-02-21 16:27:07

开源开源流计算

2023-04-04 19:10:29

Twitter算法开源

2013-11-05 10:02:15

IBMTwitter侵犯专利

2015-06-24 10:17:24

UI流式布局

2011-11-21 10:04:52

Java开源Google

2014-01-13 09:36:37

Twitter开源软件

2014-04-02 09:48:59

Twitter.comJavaScript

2013-03-06 10:31:40

MapReduce大数据SPF

2013-10-12 13:14:27

TwitterGoogle大数据

2021-02-04 12:46:54

谷歌开源安全漏洞

2013-10-12 12:56:46

2013-09-05 09:47:35

TwitterSummingbird开源

2012-12-06 10:59:51

大数据

2016-10-17 15:04:02

开源DistributedApache Kafk
点赞
收藏

51CTO技术栈公众号