Hadoop进入寒冬期，崛起的会是Spark吗?-hadoop和spark

Hadoop在大数据领域享有多年垄断权，随着该领域开始出现新生力量，其统治地位正在逐渐下滑。年初的调查中，Hadoop被列为2018年大数据领域的“渐冻”趋势之一，Gartner的调查也揭示了Hadoop使用量的下滑，不少人将Hadoop称作“倒下的大象”，比如Lucidworks***执行官Will Hayes。

如果Hadoop开始进入寒冬期，率先崛起的会是呼声***的Spark吗?

笔者曾经看过一个非常有趣的比喻，Hadoop是***家大型包工队，可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce)，但是速度比较慢。

Spark是另一家包工队，虽然成立得晚一些，但是他们搬砖很快很灵活，可以实时交互地盖房子，比Hadoop快得多。

Hadoop开始升级，指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS，Cassandra,S3，HBase)，还允许不同专家如YARN/ MESOS对人员和任务进行调度。

当然，他们两家并不是水火不容。Spark经常和Hadoop团队合作，这让问题变得更加复杂。不管怎么说，Spark和Hadoop都是两个独立的包工队，都有着各自的优缺点和特定的业务用例。

所以，***，哪一家会胜出呢?

本文将从这两大系统的体系结构，性能，成本，安全性和机器学习能力等方面进行比较。

Hadoop是什么?

现在恐怕没有人会问“Hadoop是什么?”这个问题了，因为它实在是太火了!Hadoop在2006年开始成为雅虎项目，随后晋升为***Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端，用户可以编写MapReduce或者Python代码。

除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

它可以通过Apache发行版开源，也可以通过Cloudera(规模和范围***的Hadoop供应商)，MapR或HortonWorks等厂商提供。

Spark是什么?

Spark是一个较新的项目，最初于2012年诞生在加州大学伯克利分校的AMPLab。它也是一个***Apache项目，专注于在集群中并行处理数据，***的区别在于它在内存中运行。

类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。在后一种情况下，Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core构建的，Spark Core是驱动调度，优化和RDD抽象的引擎，并将Spark连接到正确的文件系统(HDFS，S3，RDBM或Elasticsearch)。Spark Core上还运行了几个库，包括Spark SQL，允许用户在分布式数据集上运行类似SQL的命令，用于机器学习的MLLib，用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。

Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。

Databricks是由Spark创始人Matei Zaharia创立的公司，现在负责Spark开发并为客户提供Spark分销。

架构对比

Hadoop

首先，所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子，每个块在集群中被复制指定的次数。该信息被传递给NameNode，它跟踪集群中的所有内容。NameNode将这些文件分配给多个数据节点，然后将这些文件写入其中。在2012年被实施的高可用性允许NameNode故障转移到备份节点上，以跟踪集群中的所有文件。

MapReduce算法位于HDFS之上，由JobTracker组成。一旦应用程序以其中一种语言编写，Hadoop接受JobTracker，然后分配工作(可包括计算单词和清理日志文件等内容，以及在Hive仓库数据集之上运行HiveQL查询)到侦听其他节点的TaskTracker。

YARN分配JobTracker加速并监控它们的资源，以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘之上。

Spark

Spark的计算过程在内存中执行并在内存中存储，直到用户保存为止。除此之外，Spark处理工作的方式基本与Hadoop类似。最初，Spark从HDFS，S3或其他文件存储系统读取到名为SparkContext的程序执行入口。除此之外，Spark创建了一个名为RDD(弹性分布式数据集)的结构，它表示一组可并行操作元素的不可变集合。

随着RDD和相关操作的创建，Spark还创建了一个DAG(有向无环图)，以便可视化DAG中的操作顺序和操作之间的关系。每个DAG都有确定的阶段和步骤。

用户可以在RDD上执行转换，中间操作或最终步骤。给定转换的结果进入DAG，不会保留到磁盘，但每一步操作都会将内存中的所有数据保留到磁盘。

Spark RDD顶部的一个新抽象是DataFrames，它是在Spark 2.0中作为RDD配套接口开发的。这两者非常相似，但DataFrames将数据组织成命名列，类似于Python的pandas或R包。这使得它们比RDD更方便，RDD没有类似的一系列列级标题引用。SparkSQL还允许用户像存储关系数据的SQL表一样查询DataFrame。

性能

Spark在内存中运行速度比Hadoop快100倍，在磁盘上运行速度快10倍。众所周知，Spark在数量只有十分之一的机器上，对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外，Spark在机器学习应用中的速度同样更快，例如Naive Bayes和k-means。

由处理速度衡量的Spark性能之所以比Hadoop更优，原因如下：

每次运行MapReduce任务时，Spark都不会受到输入输出的限制。事实证明，应用程序的速度要快得多。
Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接，这意味着在该级别不会发生性能调整。

但是，如果Spark与其他共享服务在YARN上运行，则性能可能会降低并导致RAM开销内存泄漏。出于这个原因，如果用户有批处理的诉求，Hadoop被认为是更高效的系统。

成本

Spark和Hadoop都可以作为开源Apache项目免费获得，这意味着用户都可以零成本安装运行。但是，考虑总体拥有成本才是最重要的，比如维护、硬件和软件购买，雇佣集群管理团队的开销。内部安装的一般经验法则是Hadoop需要更多的磁盘内存，而Spark需要更多的RAM，这意味着设置Spark集群可能会更加昂贵。此外，由于Spark是较新的系统，因此它的专家更为***，成本更高。另一种选择是使用供应商进行安装，例如Cloudera for Hadoop或Spark for DataBricks，或使用AWS在云中运行EMR / Mapreduce。

由于Hadoop和Spark是串联运行的，将各自的价格分离出来进行比较可能是困难的。对于高级别的比较，假设为Hadoop选择计算优化的EMR集群，最小实例c4.large的成本为每小时0.026美元。 Spark最小内存优化集群每小时成本为0.067美元。因此，Spark每小时更昂贵，但考虑到计算时间，类似的任务在Spark集群上花费的时间更少。

容错和安全性

Hadoop具有高度容错性，因为它旨在跨多个节点复制数据。每个文件都被分割成块，并在许多机器上复制无数次，以确保如果单台机器停机，可以从其他块重建文件。

Spark的容错主要是通过RDD操作来实现。最初，静态数据存储在HDFS中，通过Hadoop的体系结构进行容错。随着RDD的建立，lineage也是如此，它记住了数据集是如何构建的，由于它是不可变的，如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制，如果执行器和驱动程序之间的节点通信失败，通常可能会损坏数据。

Spark和Hadoop都可以支持Kerberos身份验证，但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统，是另一个专门用于HDFS级别安全性的项目。

Spark的安全模型目前很少，但允许通过共享密钥进行身份验证。

机器学习

Hadoop使用Mahout来处理数据。Mahout包括集群，分类和基于批处理的协作过滤，所有这些都在MapReduce之上运行。目前正在逐步推出支持Scala和DSL语言的Samsara(类似R的矢量数学环境)，允许用户进行内存和代数操作，并允许用户自己编写算法。

Spark有一个机器学习库叫MLLib，充分利用了Spark快速内存计算,迭代效率高的优势开发机器学习应用程序。它可用于Java，Scala，Python或R，包括分类和回归，以及通过超参数调整构建机器学习管道的能力。

总结

所以，到底是选Hadoop还是Spark呢?两者都是Apache的***项目，经常一起使用，并且有相似之处，但Spark并不是离不开Hadoop，目前已有超过20%的Spark独立于Hadoop运行，并且这一比例还在增加。从性能、成本、高可用性、易用性、安全性和机器学习诸多方面参考，Spark都略胜一筹!

或许，Hadoop确实老了，大数据世界应该出现更年轻的统治者。