Hadoop中初步实现云计算

开发 架构 Hadoop
Hadoop你是否熟悉,这里就向大家介绍一下Hadoop方面的内容,Hadoop--云计算的初级实现、通向未来的桥梁,欢迎大家一起来学习Hadoop。

本节和大家学习一下有关Hadoop方面的内容,主要包括Hadoop起源,开源实现和Hadoop未来预见,相信通过本节的介绍大家对Hadoop一定会有一个初步的了解。

Hadoop--云计算的初级实现、通向未来的桥梁

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

起源:Google的集群系统

Google的数据中心使用廉价的LinuxPC机组成集群,在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个:

1、GFS(GoogleFileSystem)。一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化,包括:超大文件的访问,读操作比例远超过写操作,PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。详见Google的工程师发布的GFS论文。

2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对,Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。

3、BigTable。一个大型的分布式数据库,这个数据库不是关系式的数据库。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。
以上三个设施Google均有论文发表。

开源实现

这个分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本,支持Fedora等Linux平台。目前Hadoop受到Yahoo的支持,有Yahoo员工长期工作在项目上,而且Yahoo内部也准备使用Hadoop代替原来的基于FreeBSD的系统。
Hadoop实现了HDFS文件系统和MapRecue。目前版本是0.16。还不成熟,但是已经可以在2000个节点上运行。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。

HDFS把节点分成两类:NameNode和DataNode。NameNode是***的,程序与之通信,然后从DataNode上存取文件。这些操作是透明的,与普通的文件系统API没有区别。
MapReduce则是JobTracker节点为主,分配工作以及负责和用户程序通信。

未来

目前这个项目还在进行中,还没有到达1.0版本,和Google系统的差距也非常大,但是进步非常快,值得关注。
另外,这是云计算(CloudComputing)的初级阶段的实现,是通向未来的桥梁。本节关于Hadoop的相关内容介绍到这。

【编辑推荐】

  1. 技术分享 使用Linux和ApacheHadoop实现云计算
  2. Hadoop0.20.2集群配置入门指导手册
  3. Hadoop文件系统如何快速安装?
  4. Hadoop集群搭建过程中相关环境配置详解
  5. Hadoop完全分布模式安装实现详解

 

责任编辑:佚名 来源: cnblogs.com
相关推荐

2012-07-04 13:29:43

云计算专项

2012-06-11 17:40:27

云计算

2010-06-07 08:55:50

Hadoop云计算

2010-06-07 10:03:54

Hadoop集群

2022-09-13 07:14:29

云计算SaaS多租户

2012-05-21 16:08:07

Hadoop云计算

2013-06-18 09:38:17

私有云计算云计算堆栈开源云计算

2020-05-03 12:54:23

云计算敏捷性

2011-05-23 15:32:46

Platform

2010-06-04 17:03:17

实现Hadoop

2015-03-18 09:57:58

云计算平台云计算平台搭建Hadoop

2015-05-20 11:01:02

Hadoop云计算平台

2010-06-03 19:46:44

Hadoop

2019-12-19 13:48:21

云计算安全工具

2014-02-12 09:21:15

云计算超级云计算

2011-11-14 19:26:45

CA World 20云计算服务保障

2020-06-15 10:45:49

云计算自治系统冠状病毒

2014-12-12 12:14:42

青云

2018-11-01 11:00:02

物联网边缘计算云计算

2012-06-07 09:28:41

点赞
收藏

51CTO技术栈公众号