Hadoop在我们大数据培训课程中占据着举足轻重的地位,被公认为是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。在所有的大数据培训机构都把它作为必备课,它不仅是在大数据培训行业而且几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。
Hadoop组成(面试重点)
图2-21 Hadoop1.x与Hadoop2.x的区别
1 HDFS架构概述
HDFS(Hadoop Distributed File System)的架构概述,如图2-23所示。
图2-23 HDFS架构概述
2 YARN架构概述
YARN架构概述,如图2-24所示。
3 MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总