你还在用这种方法搭建Hadoop吗?

企业动态 Hadoop
戴尔易安信Isilon是一个成熟的数据湖解决方案,它的OneFs操作系统支持丰富数据访问协议,当一种协议写入数据湖的文件,可以马上通过其他协议被访问。

 了解更多数字化转型方案查看此链接:

https://www.dellemc-solution.com/home/index.html

谈到出门如果让你在

钥匙手机中选一个你会哪个?

[[317373]]

相信很多人选手机吃饭、购物、打车、

取钱没有是手机干不了的想回家也不难

手机App上找个开锁公司就好了

而如果选钥匙你可能还没出小区大门

就开始后悔了…

[[317374]]

手机对于今天人们生活的

重要性不言而喻

这样的例子小编再举一个

就是Hadoop对于大数据的重要性

3.png

▓ 从2006年诞生至今,Hadoop已经走过了13个年头,成为互联网行业大数据计算的标准配置。虽然时有言论唱衰Hadoop(主要针对商业发行版,而不是Hadoop技术本身),但它依然是大数据平台的核心和事实标准。

今天,几乎所有公司开展大数据项目都会首先引入Hadoop,然而成功却并不容易。2016年的时候Gartner估计有60%的大数据项目遭遇失败。这中间当然有市场、策略等在内的很多因素,但其中一个因素很多人回过头才发现,是因为它们一开始就走在了“羊肠小道”上。

 比如下面这个案例 

 

搭建标准Hadoop集群

还没上线就出问题

IT系统架构师小王供职于一家提供数据服务的A公司,该公司通过网络爬虫7×24不间断在互联网上收集所有注册企业的公开的信息,进行数据处理和信息聚合,供其用户进行查询。

最近,A公司业务上有了新的创新,他们决定在现有提供查询服务的基础上,进一步对外提供数据分析服务。经公司讨论决定,这个任务,落到了小王的头上。

[[317376]]

借鉴互联网公司的经验,小王最开始用标准服务器搭建标准Hadoop集群。该平台对外提供Hadoop as a service服务,每当用户有请求,平台都会自动帮用户生成一套Hadoop环境,同时加载300+TB由公司提供的公共数据进去。

但是,这样的平台

在前期测试阶段就出现了问题

[[317377]]


首先,当出现一个节点故障时,前端用户使用系统时会感觉非常慢,极端情况下甚至出现过部分数据不可用,集群停止服务等问题。同时故障修复过程也非常缓慢,严重影响了用户体验。

作为一个外部服务平台,这样的表现显然无法满足A公司及其外部用户SLA要求。

其次,作为一个多租户平台,同时要支撑很多套Hadoop集群运行,并且每套Hadoop集群都会存储一份由A公司提供的300+TB公共数据。大量重复数据存储造成的空间开销异常高,直接导致需要部署的服务器数量惊人,而A公司所有IT设备均托管在运营商机房,久而久之造成机房的租用成本高企。

最后,大批量服务器部署带来的运维成本对IT部门也是很大的负担。

[[317378]]

面对这种情况

只能硬着头皮用下去吗?

当然不是!小编向您推荐

Isilon for Hadoop解决方案

“等等!Isilon我是知道的,它不是你们常说的那个用在影视行业很牛掰的NAS存储嘛?它能如何帮到我??”

[[317379]]

不错,Isilon确实是以NAS的形象闻名于江湖

但是它可不仅仅定位于NAS!

8.jpg

Isilon由英特尔®至强®处理器提供支持,该处理器采用软件定义的基础设施和敏捷云架构,为Isilon提供了好的性能和效率,可加速要求严苛的文件工作负载,使企业发挥数据资本的价值,加速业务的数字转型。

Isilon搭建Hadoop

大数据也能玩的溜

其实,戴尔易安信Isilon是一个成熟的数据湖解决方案,它的OneFs操作系统支持丰富数据访问协议,当一种协议写入数据湖的文件,可以马上通过其他协议被访问。

例如,用户通过SMB写入到Isilon中的文件,可以马上通过HDFS被Hadoop计算节点访问,省去了标准Hadoop集群繁琐的ELT过程,而且OneFs原生支持HDFS,避免了协议转换带来的性能开销。

9.png

具体来说

用Isilon来架构Hadoop集群

比标准Hadoop集群更具优势


首先,传统通过DAS构建的,是计算和存储集中的单层架构,在扩容时需要同时扩容计算和存储,往往会造成计算资源过剩,形成资源浪费。而通过Isilon构建地是计算与存储分离的二层架构让计算归计算,存储归存储,这样就可以随需灵活地扩充资源,实现最佳资源利用率。

10.png

打个比方:

单层架构好比一个人被绑住双脚,不能走,只能跳,前行速度慢且吃力。

二层架构好比一个人的双脚挣脱了束缚,迈开步子往前跑,自然前进地更快。

其次,利用DAS构建的标准Hadoop集群,需要将各类在线数据经过繁琐的ETL过程才能实现大数据分析。

11.png

而通过Isilon构建Hadoop集群,能够实现数据的就地分析,无需繁琐的转换,从而避免了协议转换带来的性能开销。

12.png


最后,就像前面小王案例中遇到的,当出现一个节点故障时,前端用户就会受到显著的影响,这就是标准DAS Hadoop无法避免的单点故障风险。

而基于Isilon搭建的Hadoop集群无单点故障,每个节点都是NameNode,能够有效避避免业务风险。此外,Isilon的服务质量更有保证,即使有节点失效,也不会显著降低集群的性能。

13.png

14.png

具体到A公司新业务的应用场景

  • Isilon支持多租户,可以轻松实现不同用户的Hadoop环境逻辑上完全隔离。
  • 配合Smart Dedupe技术,可以在全局将多Hadoop实例中的共用数据进行重删,实现存储经济性。
  • 每个节点都是NameNode,更高可用性。
  • Isilon集群还能随需动态扩展高性能节点或大容量节点,实现好的投入产出比。

总之,相较于标准架构用服务器搭建Hadoop集群,采用Isilon方案能够为A公司节省更多机柜空间和能耗,简化运维管理和功能实现方式,并提供更可靠的数据服务和更丰富的接口支持,便于用户进一步的业务创新

[[317381]]

用好Hadoop不难

关键要走在事半功倍的道路上

16.png

相关内容推荐:“鸳鸯锅”玩转大数据

相关产品:Dell EMC PowerMax NVMe 数据存储

 

责任编辑:张燕妮 来源: 戴尔易安信解决方案
相关推荐

2012-07-19 10:03:32

2011-05-04 13:28:07

喷墨打印机供墨

2020-06-29 07:23:54

for循环数组JavaScrip

2024-09-27 07:49:06

数据库机械硬盘存储数据

2021-11-02 16:44:40

部署DevtoolsJRebel

2021-01-03 17:14:16

ORMObjective S运行

2023-01-05 07:55:59

Zookeeper服务注册

2017-02-13 12:20:13

大数据备份技术

2023-05-08 08:49:32

JavaLambda表达式

2023-08-30 09:16:38

PandasPython

2020-07-07 07:35:35

RedisJedisJava

2024-03-26 10:30:37

Mybatis扩展库API

2014-01-09 14:52:47

创意开源

2024-10-11 16:34:22

2019-09-21 21:32:34

数据库SQL分布式

2019-09-19 15:47:31

WindowsWindows 7Windows 10

2010-11-23 10:53:40

骑驴找马

2022-09-13 17:54:55

CSS定时器监听事件

2021-04-06 08:54:13

Random线程安全数生成器

2023-09-21 11:03:31

开发轮子工具
点赞
收藏

51CTO技术栈公众号