我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和Internet的可达性正在日益增长,同时比以往任何时候更多的数据正在被传输和收集。组织正在以惊人的速度产生数据。仅Facebook自己每天就会收集250 TB的数据。Thompson Reuters News Analytics显示,现在数字数据的产生量比2009年接近1 ZB(1 ZB等同于一百万PB)的量增长了两倍多,到2015年将有可能达到7.9 ZB,到2020年则有可能会达到35 ZB。
随着组织已经开始收集并产生大量的数据,他们也开始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所说:
拥有大量数据但是没有大量线索的公司将会被虽然拥有更少的数据但是有更多线索的创业公司所取代… |
这意味着除非你的业务理解它所拥有的数据,否则它将不能与理解这些数据的企业竞争。企业已经意识到:分析与商业竞争、态势感知、生产力、科学和创新相关的大数据能够获得巨大的收益。同时现在大部分公司将Hadoop作为自己分析大数据和掌握大数据挑战的一个主要工具。
根据Hortonworks的调查,Hadoop现在已经被很多大型主流组织所部署(50%的调查对象来自于收入超过$500M的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。
大部分情况下,Hadoop并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop通常会与已有的系统互补,它挖掘额外的业务数据,同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54%的调查对象正在利用Hadoop捕获新型数据,同时还有48%的人打算这样做。主要的新型数据包括:
- 服务日志数据,能够让IT部门更好地管理他们的基础设施(64%的调查对象已经这样做了,同时还有28%正计划这样做)。
- 点击流数据,能够让你更好地理解客户是如何使用应用程序的(52.3%的调查对象已经这样做了,同时还有37.4%正计划这样做)。
- 社交媒体数据,能够让你了解公众对公司的看法(36.5%的调查对象已经这样做了,同时还有32.5%正计划这样做)。
- 地理/位置数据,能够用来分析旅行模式(30.8%的调查对象已经这样做了,同时还有26.8%正计划这样做)。
- 机器数据,能够用来分析机器的使用情况(29.3%的调查对象已经这样做了,同时还有33.3%正计划这样做)。
根据调查,传统数据的平均增长率大约是每年8%,而新型数据的增长率则超过了85%,因此离开了Hadoop几乎不可能收集并处理它们。
InfoQ有幸能够与Hortonworks公司的市场副总裁David McJannet一起讨论该调查的结果。
InfoQ:根据此次调查的结果,好像Hadoop应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的Hive/SQL查询。你认为这种趋势将会继续么?
McJannet:我认为Hadoop在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop是整体数据架构的基础,同时这些公司现在也已经广泛使用Hadoop。但是在2013年我们发现它开始真正地扩大,这从Hadoop Summit的调查报告中就可以看出来。
让我们思考一下驱动采用率迅速攀升的原因,我认为至少有3个明确的因素:
- 对Hadoop用例有了更好的理解。实际上这一点在调查结果中有所表现,结果显示2个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理长期增长的数据。
- 技术本身的快速发展继续简化了使用,同时也为大规模推广创造了条件。Hadoop 2在很多方面都有巨大的进步,同时它还吸收了广大社区几年来的工作。
- 市场上的供应商拥抱该生态系统。例如,Microsoft所做的工作允许Excel用户直接连接到Hortonworks 数据平台(HDP)上拉取数据进行分析。而更加复杂的分析通常会在SAS这样的工具中完成,为了将SAS分析工具连接到HDP上他们作了非常深入的工作。这使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就不知道他们正在使用Hadoop。
InfoQ:你认为应用Hadoop的下一步是什么?你会如何定义像Hortonworks这样的公司或者供应商在该过程中的角色?
McJannet:我看到了一个与企业使用非常一致的模式:大部分用户最初采用Hadoop的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在***批项目取得成功之后,数据架构团队会意识到Hadoop在整个数据架构中的价值,进而将推动Hadoop下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于Hortonworks,我认为我们的角色是让Hadoop市场能够运行起来:
- 联合该生态系统中的其他组织确保开源的Hadoop能够持续地在开源领域发展同时为所有人服务
- 提供一个真正的已经经过大规模集成和测试的企业级平台,同时合并开源社区最近的创新。
- 确保它与用户已有的工具和技术的集成性和互操作性。这就是为什么我们会努力工作以确保HDP可以与来自于HP、Microsoft、SAP、SAS、Teradata等公司的技术进行认证的原因——事实上,现在所有的这些合作伙伴都将HDP作为他们产品中的一个组件进行转售。一般来说,大多数组织所依赖的供应商依赖于Hortonworks针对Hadoop研发的相关产品,这种方式能够让整个市场更快地运行和成熟。
InfoQ:尽管Hadoop提供了惊人的处理能力,远远超过了SQL,但是Hive在Hadoop的使用上依然有举足轻重的地位。同时有更多的公司正在为Hadoop数据提供实时SQL查询解决方案,强调将SQL作为主要的Hadoop编程语言的声音似乎增长得更多。你认为这是一个短期现象还是一个长期趋势?
McJannet:鉴于当今世界丰富的SQL技能,对存储在Hadoop中的数据进行访问时最常用的方式之一是使用SQL这并不稀奇。在这一方面,Apache Hive是到目前为止Hadoop SQL查询领域的一个占主导地位的工具。当然,一些希望抓住这一市场机遇的专有供应商也在Hadoop之上推出了一些新产品,但是总的来说Hive是标准同时也很有可能始终都是,特别是考虑到为了继续提升Hive的速度、规模和SQL语义Microsoft、SAP、Hortonworks以及其他组织在Stinger Initiative上所做的工作。
除了SQL之外,还有很多其他的方式可以访问存储在Hadoop中的数据,但是公平一点地说,使用SQL/Hive将会是最主要的途径。例如,Hive往往是所有基于Hadoop的BI工具所使用的接口。但是对于更加复杂的用例,我们确实会看到广泛使用的技术,例如Pig(脚本查询),同时还有更加普遍的高端工具,它们所使用的接口对用户而言并不可见,例如R和SAS。
随着时间的发展,最常用的接口很有可能是一个打包的应用程序(SAS、Microstrategy、Excel、业务对象、Platfora等),最终用户根本就不需要知道底层用了什么。
InfoQ:你认为Hadoop将会被用于构建主流企业应用程序么?大约什么时候我们才能看到这些应用程序?
McJannet:毫无疑问!历史告诉我们Web公司是采用这些新型技术(例如现在正在发展中的Hadoop)的先锋。这些公司已经基于Hadoop构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。
也是出于这方面的原因,我们才有了这样一个焦点:与人们已经拥有的开发技能集成。例证:.NET开发者?.NET SDK for Hadoop是基于开源HDP的。Java开发者?Java Spring(构建Java应用的主要框架)的HDP认证将会是这个迁移的一个强力推动者。
什么时候?做这种类型的预测一直都非常难,但是我认为新生技术的转变通常会需要比预期更长的时间,同时意义也要比预期更加深远。Hadoop技术的使用到现在已经进行了好几年,现在才真正地开始固定下来,因为事实证明它能够带来客户群的增长。作为一个供应商,我们认为我们角色中的一个非常重要的方面是:关注于技术和技能的集成从而以最及时最合理的方式推动它的发展。