继SQL Server后,微软终于全面加入了Hadoop阵营!
在10月12日的西雅图举行的SQL PASS 2011峰会上,微软宣布将于从雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。Hortonworks作为微软的战略合作伙伴将会借助自己在此领域的专长帮助最大化将Hadoop集成到微软的产品之中。
微软表示预计在今年年底可推出基于Hadoop的Windows Azure预览版,而基于Hadoop的Windows Server将在在2012年推出。基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。同时微软官方还证实了SQL Server “Denali”将被正式命名为SQL Server 2012。
微软商业平台事业部高级副总裁Ted Kummert在一份声明中表示此举将帮助微软的客户更好的管理自己的大数据。越来越多的公司正在寻找收集和分析非结构化数据以帮助自身洞察业务的方法。但迄今为止,由于传统关系数据库主要是为处理结构化数据而设计的,其自身固有的特性导致可扩展性不佳。而Hadoop作为一个开源框架对大数据的支持正日益吸引IT主管的目光,Hadoop非常适合处理非结构化数据,如电子邮件内的内容、博客、点击带来的流数据、音频及视频等数据。
如雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop来存储和分析PB级别的非结构化数据。其他企业的数据仓库技术尚不具备处理这些任务的能力。Gartner分析师Merv Adrian表示这样看来微软与Hortonworks的联盟就不足为奇了。同时他认为Cloudera是当今Hadoop的领导者。
当然其他巨头也纷纷有所行动。一周前甲骨文也推出了基于Hadoop的大数据设备以及甲骨文自己的NoSQL数据库和基于开源语言R的分布式数据统计分析系统。就在几天前IBM宣布将收购私营的系统软件公司Platform Computing。此举可帮助IBM将更好地为客户提供服务,帮助它们以更适当的方式管理并分析大规模数据,降低成本和系统复杂度。
此刻微软自然不会无动于衷,其与Hortonworks的合作旨在努力简化下载、安装和配置等几个Hadoop的相关技术。包括HDFS、Hive、Pig。这将有利于企业通过Hadoop拓宽自身的业务。微软将编写新的ODBC驱动程序并扩展自己现有的查询系统到Hive。这样一来用户将能够直接从Excel、PowerView执行Hadoop查询。微软已经宣布的为Excel编写的BI插件被称之为PowerPivot。同时微软还将加大对JavaScript语言的投入,微软将使用JavaScript实现高性能的Map/Reduce。微软承诺将紧密与Hadoop社区合作并积极为Apache软件基金会的项目作出自身的贡献。
SQL Server产品管理总经理Doug Leland表示微软计划是使Hadoop的数据通过部署在基于云的Windows Azure获取。并使其能够与企业的商业智能工具一起分析数据。微软还将Active Directory的安全性和数据访问控制整合进Hadoop,以提供最大的可管理性,真正使我们的平台具有良好的竞争力。
微软NoSQL数据库Trinity架构图
Hortonworks的CEO Eric Baldeschwieler表示,当今生成的新数据中,超过80%都是非结构化数据。微软与Hortonworks的合作可使Hadoop成为用于存储和处理数据的引人注目的平台。其实早在8月微软就增加了SQL Server在大规模数据处理和并行数据仓库平台对开源Hadoop框架的支持。同时连接器的最终版本已提供下载。然后远不止这些,微软早在今年3月份就发布了其图数据库系统Trinity。Trinity是一款NoSQL数据库,同时是一个基于内存的数据存储与运算系统。Trinity包括一个图结构数据库(提供实时查询与后台批量计算任务,类似于Map/Reduce,同时支持ACI的事物并提供C#的客户端API)和一个并行计算系统。目前在微软为Probase和AEther这两个产品服务。
最后Red Monk分析师Stephen O'Grady表示Windows和Hadoop的结合将是非常具有吸引力的,这将吸引大量的Windows用户。显然这是非常重要的,微软具有在此领域竞争的实力。微软明显认为优化和调整是确保其成功的重要因素。