导读:众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Microsoft此举就是希望利用自己在软件领域的优势构建一个打上Microsoft烙印的Hadoop生态圈。
如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。
Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。
打上Microsoft烙印的Hadoop
Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。
Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。
同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。
●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。
●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。
●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。
在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。
Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。
利用JavaScript API与C#进行Hadoop开发
对于Microsoft推出的Hadoop版本***特色的特点之一是附加JavaScript API。Hadoop上的编程工作是乏味的,这就是为什么别的高级语言会出现(如Pig)。
Microsoft选择在Hadoop环境中添加JavaScript层,开发人员可以使用它创建MapRedcue的工作,甚至在浏览器模式下与Pig和Hive进行数据交互。JavaScript层所带来的真正优势是将自身集成到Hadoop商业环境中,这使得开发人员能够轻松创建内网分析环境以便于商业用户访问。
Microsoft通过Node.js将JavaScript引入服务器端的Windows Server以及Windows Azure平台之上。同时Microsoft计划将自身的JavaScript API贡献给Apache Hadoop开源社区。这对于Hadoop社区也是一个利好的消息。
更重要的是Microsoft使得使用.NET平台开发Hadoop应用成为可能。Microsoft计划直接利用现有Hadoop API使用.NET平台创建MapReduce任务。更高级别的接口或许将出现在未来的版本中。随着时间的推移,未来在Visual Studio中对Hadoop项目开发的支持将不断提高。同时未来运行在Azure之上的Hadoop项目将允许使用.Net Framework框架之上基于Common Language Runtime (CLR)语言(如C#语言)进行编程。
流数据处理系统与NoSQL
对于大数据人谈论最多的无疑是Hadoop,但流数据处理以及NoSQL对于大数据同样重要。对于Microsoft,他们自然会有所准备。Microsoft推出了被称之为StreamInsight的流数据解决方案。NoSQL方面,Microsoft也具备了Windows Azure平台上被称之为Azure Tables的NoSQL数据库。
展望未来,Microsoft对Hadoop兼容性的承诺意味着,流数据解决方案StreamInsight以及Azure Tables会作为Hadoop环境的一部分与Microsoft分布式HBase作为核心产品推出。同时现今的流数据解决方案(如Yahoo S4)将会与Microsoft相兼容。
与现有工具集成
Microsoft正倾向与向大数据工具集成现有的主要组件,这是否意味着Microsoft打算为企业提供一个综合数据科学平台?Microsoft大数据资深产品规划负责人Madhu Reddy给出了肯定的答案。Microsoft Hadoop开发工作的主要宗旨就是让人们使用熟悉的工具,Microsoft专注于与现有工具的互操作性。Microsoft此举涉及各个层面的使用人员,包括开发者、分析师、企业用户等。Excel是一个无处不在的软件,Excel与Hive的互联就是一个很好的例子。不过其他的工具也同样重要,如MATLAB、SAS或R。
总结
Microsoft大数据战略确保Windows平台能够在大数据时代继续发挥自身的作用。并使得在数据中心业务中使自身的云服务具备更强的竞争力。Microsoft的另一个做法是将大数据与自身庞大和多样化软件无缝集成。可以看出Microsoft的重点是进行大力整合。Microsoft与Apache Hadoop社区的合作确保了新的工具和天才的开发人员向这个平台迁移。