十月或许是大数据历史上值得标注的一个月。因为在这个月中,我们可以重新定义Hadoop。其既可以是大数据批量处理的一个研究框架,也可以是结构化与非结构化数据大规模并行分析数据高速的发动机,交互分析的产品。
>已经有公司试图证明这一点。近期,业内举行了一场提升Hadoop本身Hadoop-plus-SQL architecture、增加先进分析功能、通过图像展示等的专项会议。其中,三家公司颇具代表性。
Birst:Birst曾转型为BI企业并发布了一套相关产品,而今其又回到基于Hadoop提供云计算与大数据的服务商的角色上。Birst Big Data Services可以实现非结构化数据和半结构化数据的存储,并在此基础上使得用户不需要更多MapReduce知识或其他复杂技能就能通过封装功能实现分析应用。由此,实现了结构化关系数据存储的新的连接服务,以及对于新类型数据的可视化工具分析。
Splice Machine:Splice Machine是San Francisco的一家创新型公司。在SQL数据库之上构建了Hadoop分布式文件系统,并与上周三宣布获得来自Mohr Davidow Venture的第一轮400万美元的融资。与另外一家创新企业Drawn to Scale一样,Splice Machine承诺提供——在HDFS和HBase的分布式基础上提供SQL函数和事务的服务。听起来像是个可爱的故事。如果可以实现,对于非机构化数据的灵活架构,大量的可扩展性,就可以实现与诸多企业最喜欢的SQL BI产品的无缝结合。
Teradata:Teradata终于做了大家长久以来期望做的一些事情,构建了一个命名为Big Analytics Appliance的,将Aster Data数据库与Hadoop打包起来的方案。事实上,Teradata几年前就已经收购了Aster Data,并作为大数据领域核心之一——非结构化数据而进行的必要投资,但是其与Teradata的核心数据仓库和分析业务一直不相适应。Aster Data名声在外的产品是 SQL-MapReduce软件,可以使用户通过使用标准SQL实现MapReduce jobs的运行。将Aster-Hadoop和Teradata的旗舰版数据库连接起来的是SQL-H。这一秘密武器使得用户可以访问Hadoop数据,并与Aster数据相连接,进而实现分析。
这些独特的产品所传达的意义令人印象深刻,但我们还没有看到任何产品的落地。在Hadoop生态系统中,这并非不可能。在下周O’Reilly Strata会议与Hadoop World中,会有更重量级企业的亮相,并分享他们如何将Hadoop技术与商业需求更紧密地结合在一起。