Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输信息。
这些厂商将Hadoop连接器软件视为“大数据管理”战略的重要一环,但是并不是只有主流的数据库厂商在做这件事。像数据仓库提供商Teradata以及惠普公司的Vertica都推出了类似的Hadoop产品,也不乏Informatica、Talend这样的数据集成软件厂商。而像Hortonworks、Cloudera以及MapR这样的创业公司也在这一生态系统中扮演了非常重要的角色。
OpenLogic公司的技术总监Rod Cope在使用Hadoop方面有着非常丰富的经验,他告诫用户在使用Hadoop连接器之前,需要考虑应用到场景以及对数据的需求。Cope介绍他的公司使用了Hadoop、Hbase和一个列式的NoSQL数据库组合,它们作为OpenLogic主营业务的一部分,能够帮助其客户审计软件应用,以核查所使用的嵌入式开源代码是否符合相关的许可。OpenLogic目前尚未部署任何连接器软件,但是Cope表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到Hbase上面做归档。
但是Cope认为,Hadoop连接器软件也并不能解决所有问题,感兴趣的用户需要注意加载数据的速度。在处理大数据的时候,人们往往对性能的标准并不如之前那么关注,如果加载数据到Hadoop用户的时间超长,那么使用连接器的意义就不大了。问题其实并不出在Hadoop上,而是你加载的数据源。
Ventana研究机构的分析师David Menninger表示,Hadoop分布式文件系统(HDFS)以及在其基础之上构建的数据库产品能够为用户提供非常好的数据管理与分析解决方案,这是相对于传统关系型数据库和数据仓库而言。这些数据可能是机器生成的大数据,比如Web搜素日志、社交媒体信息、手机通话记录以及其他一些非结构化的数据。
Menninger指出,Hadoop连接器软件使用的一个典型场景,就是企业使用Hadoop系统从大量的非结构化数据源中抽取少量结构化分析信息,然后再将其传输到关系型数据库当中以便使用BI工具进行进一步的分析。
Menninger表示:“目前用户将信息放到关系型数据库中,主要是因为用Hadoop数据源还不能轻松地制作报表。业界中有一套成熟的报表和分析系统,当然这都是针对关系型数据而言。”
这样的数据传输并不一定是一锤子买卖,也许你正在计算某一事件的发生次数,然后又想要计算两件事一起发生的次数。你可以返回到数据源,然后再处理一遍信息,这就是为什么人们不会把非结构化的数据删除,它们可以存放在Hadoop中。
此外,同SQL数据库相比,Hadoop为高级分析和数据挖掘应用提供了更好的环境。比如分析客服电话日志以及社交媒体上的信息,找出客户的兴趣点以及对某一产品的口碑。这对于SQL来说是非常困难的一件事,但是它可以通过Hadoop连接器来把信息传输到关系型数据库或者数据仓库当中。
Tynt多媒体公司的副总裁Cameron Befus表示,他们使用了Hadoop来为超过50万的用户提供分析服务。此外,Tynt还使用了开源的MySQL数据库来作为后端的支持。到目前为止,Befus还没有看到部署Hadoop连接器的必要,他说:“我们的确会把数据进行转移,但这通常是很直接的。我们会把文件从Hadoop直接导入MySQL中,如果使用连接器的话也许会轻松一些,但是这对我们来说并不是什么难题。”
但IT分析师认为随着Hadoop的普及,这样的连接器软件使用频率将逐渐多起来。像Menninger这样的分析师认为,公司希望能够把基于Hadoop的分析结果导入更大的业务环境中去,这也是连接器技术发展的推动力。当我们看大数据的时候什么最重要?那就是这些数据能够告诉我关键的问题是什么。用户希望能够在非结构化数据、流数据、有意义的数据以及高度结构化的数据之间构建一座桥梁,以便能够通过分析来找到问题根源所在。