聊聊流计算的两个数据处理引擎：Spark 和 Flink-spark流数据处理框架

背景

谈到大数据，流计算的重要性和它实时支持的强大分析是不可回避的。说到流计算，也离不开该领域最强大的两个数据处理引擎：Spark 和 Flink。Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。

批处理的特点是有界、持久、大量，非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。
流处理的特点是无界、实时, 无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。

Flink

介绍

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。Flink在实现流处理和批处理时，与传统的一些方案完全不同，它从另一个视角看待流处理和批处理，将二者统一起来：Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的;批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。在Flink被apache提升为顶级项目之后，阿里实时计算团队决定在阿里内部建立一个 Flink 分支 Blink，并对 Flink 进行大量的修改和完善，让其适应阿里巴巴这种超大规模的业务场景。

特点

支持高吞吐、低延迟、高性能的流处理
有状态计算的Exactly-once语义，对于一条message,receiver确保只收到一次
支持带有事件时间(event time)的流处理和窗口处理。事件时间的语义使流计算的结果更加精确，尤其在事件到达无序或者延迟的情况下。
支持高度灵活的窗口(window)操作。支持基于time、count、session，以及data-driven的窗口操作，能很好的对现实环境中的创建的数据进行建模。
轻量的容错处理( fault tolerance)。它使得系统既能保持高的吞吐率又能保证exactly-once的一致性。通过轻量的state snapshots实现
支持机器学习(FlinkML)、图分析(Gelly)、关系数据处理(Table)、复杂事件处理(CEP)
支持savepoints 机制(一般手动触发)。即可以将应用的运行状态保存下来;在升级应用或者处理历史数据是能够做到无状态丢失和最小停机时间。
支持大规模的集群模式，支持yarn、Mesos。可运行在成千上万的节点上
Flink在JVM内部实现了自己的内存管理
支持迭代计算
支持程序自动优化：避免特定情况下Shuffle、排序等昂贵操作，中间结果进行缓存
API支持，对Streaming数据类应用，提供DataStream API，对批处理类应用，提供DataSet API(支持Java/Scala)
支持Flink on YARN、HDFS、Kafka、HBase、Hadoop、ElasticSearch、Storm、S3等整合

架构

系统组件

Flink的架构体系同样也遵行分层架构设计的理念，基本上分为三层，API&Libraries层、Runtine核心层以及物理部署层。

API&Libraries层：提供了支撑流计算和批计算的接口，同时在此基础之上抽象出不同的应用类型的组件库。
Runtime 核心层：负责对上层不同接口提供基础服务，支持分布式Stream作业的执行、JobGraph到ExecutionGraph 的映射转换、任务调度等，将DataStream和DataSet转成统一的可执行的Task Operator.
物理部署层：Flink 支持多种部署模式，本机，集群(Standalone/YARN)、云(GCE/EC2)、Kubenetes。

系统架构

当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager 去执行，然后 TaskManager 将心跳和统计信息汇报给 JobManager。TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。

Client 为提交 Job 的客户端，可以是运行在任何机器上(与 JobManager 环境连通即可)。提交 Job 后，Client 可以结束进程(Streaming的任务)，也可以不结束并等待结果返回。
JobManager 主要负责调度 Job 并协调 Task 做 checkpoint，职责上很像 Storm 的 Nimbus。从 Client 处接收到 Job 和 JAR 包等资源后，会生成优化后的执行计划，并以 Task 的单元调度到各个 TaskManager 去执行。
TaskManager 在启动的时候就设置好了槽位数(Slot)，每个 slot 能启动一个 Task，Task 为线程。从 JobManager 接收需要部署的 Task，部署启动后，与自己的上游建立 Netty 连接，接收数据并处理。

Spark

介绍

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。

特点

轻量级快速处理：Spark允许传统Hadoop集群中的应用程序在内存中以100倍的速度运行，即使在磁盘上运行也能快10倍。Spark通过减少磁盘IO来达到性能的提升，提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销;
易于使用：Spark支持多语言。Spark允许Java、Scala、Python及R
支持复杂查询：除了简单的map及reduce操作之外，Spark还支持filter、foreach、reduceByKey、aggregate以及SQL查询、流式查询等复杂查询
实时的流处理：对比MapReduce只能处理离线数据，Spark还能支持实时流计算。SparkStreaming主要用来对数据进行实时处理，当然在YARN之后Hadoop也可以借助其他的工具进行流式计算
通用解决方案：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)
与其他开源产品集成：Spark可以使用Hadoop的YARN、Apache Mesos(已经启用)、Kubernetes作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等

架构

生态组件

Spark 生态系统以Spark Core 为核心，能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源，利用Standalone、YARN 和Mesos 等资源调度管理，完成应用程序分析与处理，这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等

系统组件

整个 Spark 集群中,分为 Master 节点与 worker 节点,,其中 Master 节点上常驻 Master 守护进程和 Driver 进程, Master 负责将串行任务变成可并行执行的任务集Tasks, 同时还负责出错问题处理等,而 Worker 节点上常驻 Worker 守护进程, Master 节点与 Worker 节点分工不同, Master 负载管理全部的 Worker 节点,而 Worker 节点负责执行任务。

Spark的架构中的基本组件：

Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器

Worker：从节点，负责控制计算节点，启动Executor或者Driver。在YARN模式中为NodeManager，负责计算节点的控制。

Driver：运行Application的main()函数并创建SparkContext。

Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executor。

SparkContext：整个应用的上下文，控制应用的生命周期。

RDD：Spark的基础计算单元，一组RDD可形成执行的有向无环图RDD Graph。
DAG Scheduler：根据作业(task)构建基于Stage的DAG，并提交Stage给TaskScheduler。
TaskScheduler：将任务(task)分发给Executor执行。
SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。

执行流程

构建 Spark Application 的运行环境(启动 SparkContext)，SparkContext 向 Cluster Manager 注册，并申请运行 Executor 资源。
Cluster Manager 为 Executor 分配资源并启动 Executor 进程，Executor 运行情况将随着“心跳”发送到 Cluster Manager 上。
SparkContext 构建 DAG 图，将 DAG 图分解成多个 Stage，并把每个 Stage 的 TaskSet(任务集)发送给 Task Scheduler (任务调度器)。Executor 向 SparkContext 申请 Task, Task Scheduler 将 Task 发放给 Executor,同时，SparkContext 将应用程序代码发放给 Executor。
Task 在 Executor 上运行，把执行结果反馈给 Task Scheduler，然后再反馈给 DAG Scheduler。运行完毕后写入数据，SparkContext 向 ClusterManager 注销并释放所有资源。

总结

Spark 和 Flink 都是通用的能够支持超大规模数据处理，支持各种处理类型的计算引擎。在spark的世界观中，一切都是由批次组成的，离线数据是一个大批次，而实时数据是由一个一个无限的小批次组成的。而在flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一个没有界限的流，这就是所谓的有界流和无界流。Apache Spark 和 Flink 都是备受业界关注的大数据工具。两者都提供与 Hadoop 和 NoSQL 数据库的集成，并且可以处理 HDFS 数据。但由于其底层架构，Flink 比 Spark 更快。Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所提升。采用了基于操作符(Operator)的连续流模型，可以做到微秒级别的延迟。

从流处理的角度来讲，Spark基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。而Flink基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark只支持基于时间的窗口操作(处理时间或者事件时间)，而Flink支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口(另外还支持基于time、count、session，以及data-driven的窗口操作)，开发者可以自由定义想要的窗口操作。

从SQL 功能的角度来讲，Spark和Flink分别提供SparkSQL和Table APl提供SQL交互支持。两者相比较，Spark对SQL支持更好，相应的优化、扩展和性能更好，而Flink在SQL支持方面还有很大提升空间。

从迭代计算的角度来讲，Spark对机器学习的支持很好，因为可以在内存中缓存中间计算结果来加速机器学习算法的运行。但是大部分机器学习算法其实是一个有环的数据流，在Spark中，却是用无环图来表示。而Flink支持在运行时间中的有环数据流，从而可以更有效的对机器学习算法进行运算。

从相应的生态系统角度来讲，Spark 的社区无疑更加活跃。Spark可以说有着Apache旗下最多的开源贡献者，而且有很多不同的库来用在不同场景。而Flink由于较新，现阶段的开源社区不如Spark活跃，各种库的功能也不如Spark全面。但是Flink还在不断发展，各种功能也在逐渐完善。