人人都在谈论大数据,但是究竟什么是大数据呢?大数据主要来源于互联网领域和一些垂直行业,数据量达到PB级,甚至10PB以上;它需要更高性能、更大吞吐量、更大扩展能力.据统计,全球80%的数据在近两年生成,平均年增长率超过50%。数据正从四面八方、各个领域中产生,变得更繁杂、更庞大、更加多样性,如果将这些海量数据简单堆加、存储归档,是不能为企业带来价值的,反而会增加企业投资成本。只有完成对大数据的分析、价值数据提取,才能发挥大数据最大的威力,进一步提高企业决策水平、改善业务模式,从而成为企业成功的关键。
Hadoop是一个分布式计算框架,来源于Apache软件基金会的开源项目,具有良好的并行处理能力、可扩展性和可伸缩性的特点,更适合处理半结构化、非结构化类数据,是重要的大数据计算和分析平台。Hadoop因此获得大多数数据分析厂商的关注和支持,成为当下大数据领域的热点技术。根据上述大数据的四个特点,系统不仅需要具备超高的性能和超大的存储空间,还必须将数据存储与数据分析相结合,由此华为N8000-Hadoop大数据解决方案应运而生。该方案借助华为N8000系统先进的集群架构和企业级存储功能,集成Hadoop计算框架,提供从密集型数值计算和数据存储中实时获取的分析处理结果,帮助客户提高决策和运营效率,简化管理并降低组网成本。华为N8000-Hadoop大数据解决方案有以下特性和优势:
1. 数据互通,承载多业务
首先,我们先分析一下当前集群NAS应用Hadoop的典型数据处理流程。数据通过集群NAS的NFS/CIFS等NAS协议完成数据存取操作,而Hadoop是架构在HDFS协议之上,这意味着集群NAS的数据不能被Hadoop计算框架直接使用,必须通过异构数据源之间进行数据交换的工具,将异构数据源的数据抽取到中间层进行转换,最后加载到数据仓库中,成为Hadoop计算框架能够分析处理的数据。而华为N8000-Hadoop方案提出一种创新的思路,消除了这个桎梏,实现在不同的数据处理系统之间进行数据交换,在同一个存储空间中,数据可以自由流通,所见即所得,并且不需要改变传统NAS用户使用习惯和组网方式,无缝对接Hadoop计算框架,实现数值计算、数据存储以及即时的数据分析和事务处理等多业务的承载。
2. 提高存储利用率,降低TCO
使用开源Hadoop的默认配置,一种典型的牺牲存储空间换取数据可靠性和读写效率的方式,其最大存储空间利用率是33%。而华为N8000-Hadoop大数据解决方案充分利用了N8000产品企业级存储功能特性的优势,通过选择各种RAID级别技术来实现不同级别的冗余、错误恢复和数据保护功能,存储空间利用率可达80%,从而降低系统总体拥有成本TCO。
3. 企业级Hadoop整体解决方案
在使用开源Hadoop时的第一个问题是如何为Hadoop集群选择合适的硬件,这需要考虑各种影响因素,往往根据使用经验来决定配置,这使得构建系统存在很大不确定性。华为N8000-Hadoop大数据解决方案可为一个给定的工作负载选择合理的硬件配置来实现性能和经济的最佳平衡。华为N8000集群系统作为企业级存储产品,采用多节点全Active集群技术,所有部件均为冗余设计,无单点故障,系统提供数据保险箱技术和文件系统镜像等软件技术进一步提高系统可靠性。
4. 海量小文件处理性能
目前,很多用户开始利用Hadoop处理海量数据,并取得很好的效果,但随着数据量增加,尤其是小文件数目的增多,逐渐发现Hadoop能够高效自如地处理大文件,却在处理海量小文件时由于Name Node占有率高而导致访问效率低的问题。而华为N8000-Hadoop方案是基于共享集群文件系统,消除了Name Node的限制,具有多任务处理的功能,元数据可被分段管理,不会出现性能瓶颈,从而提高了对海量小文件处理的效率。