详聊Google云计算的基础架构

云计算
这里介绍Google App Engine使用了云计算技术,它跨越多个服务器和数据中心来虚拟化应用程序。当前,Google App Engine支持的编程语言是Python和Java. http://appengine.google.com

GFS是 google自己设计的分布式文件系统,是大量安装有Linux操作系统的普通PC构成的集群系统。整个集群系统由一台Master(通常有几台备份)和若干台TrunkServer构成。GFS中文件备份成固定大小的Trunk分别存储在不同的TrunkServer上,每个Trunk有多份拷贝,也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata,即文件名及其Trunk信息。客户端先从Master上得到文件的Metadata,根据要读取的数据在文件中的位置与相应的 TrunkServer通信。本文介绍Google云计算的基础架构。

据介绍,google的每一份数据至少放在三个不同位置的机器上,所以可靠性是可以高度保证的;而且操作GFS和操作本地磁盘一样简单易行。

目前Google拥有超过200个的GFS集群,其中有些集群的计算机数量超过5000台。Google现在拥有数以万计的连接池从GFS集群中获取数据,集群的数据存储规模可以达到5个PB,并且集群中的数据读写吞吐量可达到每秒40G。

MapReduce是一个编程模式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列的中间key/value对,并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。MapReduce的主要贡献在于提供了一个简单强大的接口,通过这个接口,可以把大尺度的计算自动的并发和分布执行。

常见的应用例子:在很大的文档集合中通机每一个单词出现的次数.map函数检查每一个单词,并且对每一个单词增加1到其对应的计数器;reduce函数把特定单词的所有出现的次数进行合并。其他例子:

URL访问频率统计:map函数处理webpag请求和应答(URL,1)的log。Reduce函数把所有相同的URL的值合并,并且输出一个成对的(URL,总个数)。

逆向Web-Link,map函数输出所有包含指向target URL的source网页,用(target,source)这样的结构对输出。Reduce函数局和所有关联相同target URL的source列表,并且输出一个(target,list(source))这样的结构。

分布式排序:map函数从每条记录中抽取关键字,并且产生(key,record)对。reduce函数原样输出所有的关键字对。

BigTable:一种用于管理超大规模结构化数据的分布式存储系统,可以管理分布在数以千计服务器上的以PB计的数据。Bigtable API将包括用于创建、编辑表和列,改变群集、表、列元数据的函数。BT不支持完全的关系数据模型,而是为客户提供了简单的数据模型,让客户来动态控制数据的分布和格式。BT只能支持大部分SQL。

Google App Engine

Google App Engine是一个开发、托管网络应用程序的平台,使用Google管理的数据中心。它在2008年4月发布了***个beta版本。Google App Engine使用了云计算技术,它跨越多个服务器和数据中心来虚拟化应用程序。当前,Google App Engine支持的编程语言是Python和Java. http://appengine.google.com

Hadoop
◆Hadoop(http://hadoop.apache.org)是apache下面的一个分布式并行计算框架,是从lunece中抽取出来的一个框架。Hadoop主要是由HDFS、MapReduce和Hbase组成。
◆HDFS是Google File System(GFS)的开源实现。
◆MapReduce是Google MapReduce的开源实现。
◆HBase是Google BigTable的开源实现

Google的上述分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力,但是用C++写的。因此Apache基金会用Java实现了一个开源版本hadoop,支持Fedora、Ubuntu等Linux平台。以上介绍Google云计算的基础架构。

【编辑推荐】

  1. 让大家把云计算从头学习
  2. 传说中的云计算究竟是什么
  3. 畅谈并行计算和云计算学习笔记
  4. 讲述云计算产业大变革
  5. 讲解6项云计算的挑战

 

责任编辑:佚名
相关推荐

2010-03-22 14:54:35

2014-02-14 12:23:37

云计算架构云计算数据中心

2012-03-23 14:02:11

云计算

2009-11-06 17:21:36

验证Oracle SQ

2010-03-18 15:28:53

云计算

2009-11-05 17:53:05

Oracle用户表空间

2018-07-02 12:41:53

云计算数据中心基础架构

2018-10-26 16:17:01

云计算数据中心架构

2014-11-13 10:05:42

云计算IaaS

2010-03-22 15:11:46

云计算

2013-12-03 10:13:33

云计算网络基础架构

2010-11-23 13:56:46

伊顿云计算

2010-07-07 09:28:25

云计算虚拟化

2020-07-21 07:41:07

云计算架构技术

2016-08-23 00:54:35

云计算基础架构灾难恢复

2009-03-21 21:24:42

2009-07-29 11:27:15

微软Google云计算

2011-09-08 15:15:15

云计算Gmail数据中心

2018-09-04 14:46:29

云计算物联网数据

2012-05-30 00:08:34

IDC云计算
点赞
收藏

51CTO技术栈公众号