罗李:基于Hadoop数据服务平台

云计算 Hadoop
Hadoop最重要的两项服务是HDFS和MapReduce,阿里通过分组对资源做了切分,HDFS通过文件数和空间的配额做限制,mapreduce是做slot的限制。数据可以在阿里的平台上方便的共享,计算资源通过分时共享,白天进行开发和测试任务,晚上进行生产任务。

  2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开。本次峰会将围绕大数据基础架构与上层应用的生态系统,解决大规模数据引发的问题,探索大数据基础的解决方案,激发数据挖掘带来的竞争力,让数据发出声音。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴,更多内容请点击专题:2013大数据全球技术峰会

 

2013大数据全球技术峰会专题

[[71730]]

来自于阿里巴巴集团分布式团队成员罗李与在场观众分享,阿里的大数据发展经历几个阶段。

首先是单机版。但是面临着容量问题,一台机器放不下怎么办?同时单机的性能也不能达到要求。

之后阿里用了市面上流行的分布式数据库方案,容量和计算能力比单机版翻了好几倍,当时满足淘宝和阿里巴巴业务的发展。但发展到一定程度后,这种方式的问题初见端倪,首先容量有限制,作为一款商业软件,它的价格不菲,按照容量收费导致软件越用越贵。同时在大数据场景下,系统的稳定性也不是特别好。

再后来阿里内部有一些部门开始使用Hadoop,08年时阿里拥有7-8个大大小小的Hadoop集群,从十几台到一两百台,基本用于处理离线数据处理。但各个集群都各自为政独立发展,却又有千丝万缕的联系,虽相互依赖,但集群规模和运行水平却参差不齐,所以集群的稳定性一直是一个问题,***的问题就是集群重复建设,高成本,低效率。

那么什么才是适合阿里巴巴的大数据解决方案?

云梯Hadoop服务集群

• HDFS - 海量数据存储服务

• 分组,通过quota(空间/文件数)限制:/group/taobao

• 数据共享:淘宝/天猫/一淘/B2B/支付宝

• MapReduce - 大规模分布式计算服务

• 分组,slot限制,按需申请,集中分配和调度

• 生产 / 开发 / 测试共享集群,白天开发,晚上生产

• 服务特色

• 单一大集群

• 多用户共享

• 计算分时

• 资源按需申请,按使用量计费

Hadoop最重要的两项服务是HDFS和MapReduce,阿里通过分组对资源做了切分,HDFS通过文件数和空间的配额做限制,mapreduce是做slot的限制。数据可以在阿里的平台上方便的共享,计算资源通过分时共享,白天进行开发和测试任务,晚上进行生产任务。

云梯提供的其他Hadoop服务有哪些?

其实这些服务都来自于Hadoop开源生态圈,并且可以很方便的吸收进来,这就是使用开源软件的优势。

最重要的服务是Hive,如果要迁移oracle的任务,就必须提供SQL语法的支持,hive做到了。之后阿里平台发展壮大也主要是hive的功劳,现在阿里平台上80%以上的作业是hive的。同时还提供了streaming,mahout,pig等工具。

阿里的HBase服务区别于独立的HBase集群,hbase机器和云梯其他slave机器是共享的,和其他的Mapreduce任务共享一个HDFS,阿里期望在云梯大规模数据和计算能力背景下,吸收HBase存储服务的特色,为云梯用户提供更好的在线服务体验。

[[71731]]

结尾:以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。

责任编辑:王程程 来源: 51CTO
相关推荐

2017-01-07 11:45:43

医疗健康大数据虚拟化

2016-09-08 23:47:17

大数据大数据服务

2021-11-19 09:08:48

Alluxio

2022-01-27 09:51:42

数据管理

2018-06-15 20:44:40

Hadoop数据分析数据

2017-02-28 16:00:03

VRVR旅游大数据

2019-10-29 14:15:25

云存档数据服务技术

2019-07-26 11:34:56

Veritas

2017-10-10 15:20:10

架构数据存储PB级数据

2012-02-14 10:18:11

WCF数据服务

2021-09-24 10:46:00

MaxCompute Hologres 数据服务

2015-05-07 14:35:07

FreeStor软件定义存储数据服务

2015-11-26 10:23:25

电科华云

2021-05-21 14:19:45

数据服务API技术

2022-09-23 14:16:29

PingCAPTiDB分布式数据库

2009-11-12 15:23:57

ADO.NET数据服务

2021-08-27 11:05:13

Commvault

2018-05-10 13:42:11

Hadoop架构大数据

2016-10-17 09:33:24

大数据产业链场景应用

2015-07-01 13:51:12

HadoopMapReduce数据分析
点赞
收藏

51CTO技术栈公众号