HDFS原理 | 一文读懂HDFS架构与设计-hdfs架构

1 前言

HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统，是一个高容错的系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件，将数据按块分布式存储到不同机器上，并被设计成适合运行在普通廉价硬件之上。本文根据Hadoop官网HDFS Architecture这一章节提炼而成，加上笔者自己的理解，希望能够帮助读者快速掌握HDFS 。

2 HDFS特点

流式数据访问：这点初学者可能不好理解，流式数据访问模式是HDFS数据访问特点之一，是指收集到部分数据就开始处理，而不是收集到全部数据再处理，否则会导致比较大的延迟，也会消耗大量内存。

大规模数据集：HDFS对大文件存储比较友好，HDFS上的一个典型文件大小一般都在GB至TB级。

一次写入多次读取：HDFS数据访问特点之一，文件经过创建、写入和关闭之后就不能够改变。这也简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。

不支持低延时数据访问：这也是HDFS数据访问的特点，HDFS关系的是高吞吐量，不适合那些低延时数据访问的应用。

单用户写入，不支持任意修改：HDFS的数据以读为主，只支持单个写入者，并且写操作总是以添加的形式在文末追加，不支持在任意位置进行修改。

3 HDFS架构

HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色，分别是Namenode和Datanode。Namenode是管理节点，负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间，用户能够以操作文件的形式在上面操作数据。HDFS架构图如下：

HDFS上的文件是以数据块的形式存放的，这些数据块通常存储在一组Datanode上。Namenode执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求，并在Namenode的统一调度下执行数据块的创建、删除和复制。

4 数据块与副本机制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，除了最后一个，所有的数据块都是同样大小的。为了容错，文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。HDFS中的文件都是一次性写入的，并且严格要求在任何时候只能有一个写入者。

Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

5 机架感知与副本存放

副本的存放是HDFS可靠性和性能的关键，HDFS在这方面做了优化，它采用一种称为机架感知 (Rack Awareness) 的策略来改进数据的可靠性、可用性和网络带宽的利用率。

大型HDFS 实例一般运行在跨越多个机架的计算机组成的集群上，不同机架上的两台机器之间的通讯需要经过交换机。在大多数情况下，同一个机架内的两台机器间的带宽会比不同机架的两台机器间的带宽大。

通过一个机架感知的过程，Namenode可以确定每个Datanode所属的机架id。一个简单但没有优化的策略就是将副本存放在不同的机架上。这样可以有效防止当整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀分布在集群中，有利于当组件失效情况下的负载均衡。但是，因为这种策略的一个写操作需要传输数据块到多个机架，这增加了写的代价。

在大多数情况下，副本系数是3， HDFS存放策略是将一个副本存放在本地机架的节点上，一个副本放在同一机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，这就提高了写操作的效率。机架的错误远远比节点的错误少，所以这个策略不会影响到数据的可靠性和可用性。于此同时，因为数据块只放在两个(不是三个)不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。

6 HDFS元数据管理

Namenode上保存着HDFS的命名空间。对于任何对文件系统元数据产生修改的操作，Namenode都会使用一种称为EditLog的事务日志记录下来。例如，在HDFS中创建一个文件，Namenode就会在Editlog中插入一条记录来表示;同样地，修改文件的副本系数也将往Editlog插入一条记录。Namenode在本地操作系统的文件系统中存储这个Editlog。整个文件系统的命名空间，包括数据块到文件的映射、文件的属性等，都存储在一个称为FsImage的文件中，这个文件也是放在Namenode所在的本地文件系统上。

Namenode在内存中保存着整个文件系统的命名空间和文件数据块映射(Blockmap)的映像。当Namenode启动，或者检查点被周期性触发时，它从硬盘中读取Editlog和FsImage，将所有Editlog中的事务作用在内存中的FsImage上，并将这个新版本的FsImage从内存持久化到本地磁盘上。然后HDFS删除旧的Editlog，因为这个旧的Editlog的事务都已经作用在FsImage上了。这个过程被称为一个检查点 (checkpoint)。在检查点期间，Editlog的更改将应用于FsImage。 checkpoint 触发时机，可以是以给定的时间间隔(dfs.namenode.checkpoint.period，单位秒)触发，或者在给定数量的文件系统事务累积之后(dfs.namenode.checkpoint.txns)触发。如果设置了这两个属性，则要达到的第一个阈值将触发检查点。

7 总结

本文属于HDFS入门介绍，主要介绍了HDFS基本架构、副本机制，机架感知及元数据管理等方面内容。