Hadoop起源及其四大特性详解

开发 架构 Hadoop
Hadoop你是否熟悉,这里就向大家简单介绍一下Hadoop的概念,起源以及他有什么特性,希望通过本文的介绍大家对Hadoop有一定的认识,欢迎大家一起来学习。

本节和大家一起来了解一下Hadoop,主要内容有它的概念介绍,特性以及起源,欢迎大家一起来学习Hadoop方面的知识,相信通过本节的介绍你一定会对Hadoop有一定的了解。

Hadoop

起源:Google的集群系统
开源实现
Hadoop研究
  
Hadoop的Logo
项目主页:http://hadoop.apache.org
  一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
  简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
  Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。
  
下面列举hadoop主要的一些特点:
  
1扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
2成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
4可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。

起源:Google的集群系统

  Google的数据中心使用廉价的LinuxPC机组成集群,在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个:
  
1、GFS(GoogleFileSystem)。一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化,包括:超大文件的访问,读操作比例远超过写操作,PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。详见Google的工程师发布的GFS论文。
  
2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对,Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。
  
3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。
  以上三个设施Google均有论文发表。Hadoop的相关内容并没有介绍完毕,请关注下节介绍。

【编辑推荐】

  1. Hadoop集群与Hadoop性能优化
  2. Yahoo公布Hadoop的源代码
  3. Hadoop 从Yahoo向Google的技术转折
  4. Linux下安装SVN客户端新概念
  5. SVN代码服务器安装部署简明步骤详解
责任编辑:佚名 来源: csdn.net
相关推荐

2019-10-15 08:00:00

HTTP2HTTP前端

2020-09-21 18:44:35

MySQL

2013-07-29 13:41:40

Dell/vWorks

2011-04-02 09:45:00

Ubuntu 11.0特性

2015-07-06 15:15:50

移动OA

2018-11-06 14:17:23

2010-07-19 10:05:07

jQuery

2010-08-05 10:22:46

Flex效果

2015-07-17 09:50:16

Carthage优劣比较

2012-11-16 11:11:06

深度影音Linux Deepi

2009-02-27 13:07:00

服务器解析基本特性

2010-07-02 14:34:53

UML类图

2024-07-22 15:56:44

2010-11-15 15:20:13

Oracle索引扫描

2010-01-22 09:52:32

JPA 2.0Java EE 6

2024-03-29 13:30:41

分布式事务节点

2022-07-03 14:03:57

分布式Seata

2011-03-21 09:01:49

CSS框架

2009-09-15 11:32:31

IDC数据中心存储

2009-10-22 10:06:54

CLR线程池教程
点赞
收藏

51CTO技术栈公众号