“忽如一夜春风来,千树万树梨花开。”用岑参的这句诗形容大数据最为形象不过了。随着云计算日渐成熟,大数据话题好像突然变得尤为火热,大数据时代正在悄然降临。而提到大数据,不得不说的是与大数据相关的技术名词,Hadoop、MapReduce、Hbase、NoSQL等,业界的众多厂商也都开始从技术入手,打造各自的大数据解决方案,一时间,Hadoop成为了大数据的代名词。
大数据就是Hadoop?
一提到大数据,首先想到的就是Hadoop,Hadoop是由Apache基金会开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序。而大数据就是Hadoop么?开源技术Hadoop可以提供相对廉价的分布式的存储系统,通过MadReduce的技术,进行并发、高效能的计算。大数据引擎基本上完成是存储和计算,但真正的存储计算结果还要与传统的业务系统和其他应用来使用。
IBM软件集团大中华区信息管理软件总经理卢伟权认为,“Hadoop只是大数据平台中的一部分,Hadoop里没有管理工具也没有汇总数据的功能。大数据不单使用Hadoop平台做静态的分析,因为静态的分析只是把过去的数据仓库静态的数据做了延伸而已。”此外,大数据不能只是处理底层静态架构的数据,不能只是考虑数据的存储等,更多的是将数据进行动态和实时的分析,从而更好的为业务做出决策,提高竞企业竞争优势。
IBM软件集团大中华区信息管理软件总经理卢伟权
大数据的第四个“V"
我们提到大数据的特性的时候,往往会想到3个V,即容量(Volume)、速度(Velocity)和多样性(Variety),现在数据容量越来越大,数据处理的量级上正从TB级向ZB级扩张,信息量膨胀不仅涉及到存储问题,同时也是一个巨大的分析问题;数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。现在的数据是各种各样类型,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是非结构化的数据,各种各样的数据都大量进入企业的服务器、数据中心,所以大数据产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识,把知识变成决策,这就需要有更多的很好的数据处理能力。
大数据的宗旨也是如此,在处理数据和信息的过程中发掘其背后的商业价值。而如今,IBM提出了另一个维度来看待大数据,也就是第四个V,数据的真实性(Veracity)。IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军认为,如今要做的决策来自于可确认的信息,而世界产生的信息是各个维度,若不分析数据就只是存在数据库里的数据,只有分析了才能发现数据的内在价值。大数据是原始的数据,数据的展示角度不同,其中有些数据是不为所用的,需要对数据进行质量的分析或是真实性的分析,最重要的是分析的结果要准确。卢伟权表示,“IBM除了可以对传统的数据仓库和数据信息进行管控和审计,也可以对来自不同信息源的大数据信息进行真实性审核并实现有效管控,这也是IBM在业界特别强于其他厂商重要的维度。”
IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军
IBM 端到端的大数据方案
IDC研究表明,数字领域存在着1.8万亿GB的数据,企业数据正在以55%的速度逐年增长。IBM认为,“大数据”已经成为重要的时代特征,企业需要重新思考已有的IT模式,应对在数量和类型上不断新增的数据;同时,大数据又将推动企业进行基于信息革命的业务转型,更多商业价值和发展机会将产生于数据和洞察。
基于“3A5步”动态路线图,IBM结合信息管理、业务分析等软件,提出“大数据平台”架构,该平台的四大核心能力包括Hadoop系统、流计算(Stream Computing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。
IBM智慧的分析洞察- 3A5步动态路线图
IBM大数据平台
IBM在Hadoop系统领域的代表产品是InfoSphere BigInsights,它是基于开源Apache Hadoop框架实现,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的数据分析、机器学习技术以及文本数据分析挖掘;IBM在流计算领域的代表产品是InfoSphere Streams,是目前业界独有的流数据处理技术。Streams能够在对诸如气象信息、通讯信息、金融交易数据的管理中动态捕捉信息、进行实时分析,能够对静态数据的处理提供有效补充;在数据仓库方面是InfoSphere Warehouse和etezza。Netezza克服了传统数据仓库在面临大数据挑战时的瓶颈,可以将大量数据整合到统一的平台上,计算能力高达TB级。通过与Cognos和SPSS等卓越的业务分析工具相结合,实现了定制化的分析功能;信息整合与治理是IBM在业界独有的方法论和技术,其代表产品是Optim和Guardium。近期推出的Guardium 9能够将如DB2这样的传统关系型数据仓库和基于Hadoop的分布式存储系统进行统一管理,并提供完整的数据生命周期管控。此外,Guardium 9也能够管理除IBM之外的第三方数据平台,帮助客户保持在原有的系统的基础上,最小成本、最大能力地提高信息安全和质量。