百度Hadoop分布式系统揭秘:4000节点集群

数据库 其他数据库 分布式 Hadoop
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点,每天的数据生成量在10PB以上。

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配,可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

百度通过HCE对streaming作业的排序,压缩,解压缩,内存控制进行了优化并提供了C++版的MapReduce接口。

百度HCE语言的有关内容,HCE是基于C++的Hadoop环境,是一个全功能C++环境,可以避开Java语言对于释放内存和资源申请的弊端,并在调用数据时绕开Java语言的所有关节,极大的提升算法效率。

百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。

百度计划对shuffle流程进行大幅改造

原文链接:http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

【编辑推荐】

  1. 微软SQL Server增加对Hadoop的支持
  2. 浅析Hbase中的Hadoop单机环境配置

 

责任编辑:艾婧 来源: chinacloud
相关推荐

2017-02-28 09:48:30

2023-02-22 14:04:54

2019-09-26 15:43:52

Hadoop集群防火墙

2017-08-10 10:17:32

Hadoop分布式搭建

2016-11-08 21:18:22

百度

2016-11-11 20:23:17

分布式集群万亿量级计算百度

2021-07-14 07:17:37

Springboot分布式UIDGenerato

2010-06-04 18:45:43

Hadoop分布式文件

2013-12-04 13:32:30

2012-09-19 14:09:20

Hadoop开源

2011-07-15 17:48:27

Platform

2012-02-23 09:59:05

Hadoop分布式应用

2015-08-03 15:48:42

Hadoop大数据

2010-06-03 14:42:47

Hadoop分布式集群

2017-12-07 15:24:10

Hadoop大数据服务器

2023-05-29 14:07:00

Zuul网关系统

2009-11-09 10:03:35

2024-03-19 11:41:12

2023-05-12 08:23:03

分布式系统网络
点赞
收藏

51CTO技术栈公众号