Hadoop——Microsoft大数据战略的核心

云计算 Hadoop
众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Microsoft此举就是希望利用自己在软件领域的优势构建一个打上Microsoft烙印的Hadoop生态圈。

   导读:众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Microsoft此举就是希望利用自己在软件领域的优势构建一个打上Microsoft烙印的Hadoop生态圈。

  

[[61469]]

 

  如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

  Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

  打上Microsoft烙印的Hadoop

  Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。

  Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。

  

 

  同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。

  ●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。

  ●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。

  ●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。

  在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

  Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

  利用JavaScript API与C#进行Hadoop开发

  

 

  对于Microsoft推出的Hadoop版本***特色的特点之一是附加JavaScript API。Hadoop上的编程工作是乏味的,这就是为什么别的高级语言会出现(如Pig)。

  Microsoft选择在Hadoop环境中添加JavaScript层,开发人员可以使用它创建MapRedcue的工作,甚至在浏览器模式下与Pig和Hive进行数据交互。JavaScript层所带来的真正优势是将自身集成到Hadoop商业环境中,这使得开发人员能够轻松创建内网分析环境以便于商业用户访问。

  Microsoft通过Node.js将JavaScript引入服务器端的Windows Server以及Windows Azure平台之上。同时Microsoft计划将自身的JavaScript API贡献给Apache Hadoop开源社区。这对于Hadoop社区也是一个利好的消息。

  更重要的是Microsoft使得使用.NET平台开发Hadoop应用成为可能。Microsoft计划直接利用现有Hadoop API使用.NET平台创建MapReduce任务。更高级别的接口或许将出现在未来的版本中。随着时间的推移,未来在Visual Studio中对Hadoop项目开发的支持将不断提高。同时未来运行在Azure之上的Hadoop项目将允许使用.Net Framework框架之上基于Common Language Runtime (CLR)语言(如C#语言)进行编程。

  流数据处理系统与NoSQL

  

 

  对于大数据人谈论最多的无疑是Hadoop,但流数据处理以及NoSQL对于大数据同样重要。对于Microsoft,他们自然会有所准备。Microsoft推出了被称之为StreamInsight的流数据解决方案。NoSQL方面,Microsoft也具备了Windows Azure平台上被称之为Azure Tables的NoSQL数据库。

  展望未来,Microsoft对Hadoop兼容性的承诺意味着,流数据解决方案StreamInsight以及Azure Tables会作为Hadoop环境的一部分与Microsoft分布式HBase作为核心产品推出。同时现今的流数据解决方案(如Yahoo S4)将会与Microsoft相兼容。

  与现有工具集成

  Microsoft正倾向与向大数据工具集成现有的主要组件,这是否意味着Microsoft打算为企业提供一个综合数据科学平台?Microsoft大数据资深产品规划负责人Madhu Reddy给出了肯定的答案。Microsoft Hadoop开发工作的主要宗旨就是让人们使用熟悉的工具,Microsoft专注于与现有工具的互操作性。Microsoft此举涉及各个层面的使用人员,包括开发者、分析师、企业用户等。Excel是一个无处不在的软件,Excel与Hive的互联就是一个很好的例子。不过其他的工具也同样重要,如MATLAB、SAS或R。

  总结

  Microsoft大数据战略确保Windows平台能够在大数据时代继续发挥自身的作用。并使得在数据中心业务中使自身的云服务具备更强的竞争力。Microsoft的另一个做法是将大数据与自身庞大和多样化软件无缝集成。可以看出Microsoft的重点是进行大力整合。Microsoft与Apache Hadoop社区的合作确保了新的工具和天才的开发人员向这个平台迁移。

责任编辑:鸢玮 来源: CSDN
相关推荐

2012-06-21 09:56:50

VMware大数据

2020-01-15 12:16:45

大数据搜索引擎技术

2012-03-05 10:19:23

微软Hadoop编程

2012-11-28 11:52:29

浪潮一体机大数据

2024-03-18 00:04:10

大数据银行

2014-01-23 11:03:50

大数据

2023-04-03 14:25:08

大数据机器学习

2016-12-20 18:21:29

Hadoop大数据面试

2015-04-01 15:09:30

Hadoop大数据

2019-11-18 11:55:24

大数据人工智能技术

2018-03-28 17:16:09

大数据

2021-09-28 13:32:01

大数据大数据战略数据策略

2013-03-01 10:46:50

大数据核心海量数据

2017-02-23 16:25:33

网易

2013-05-06 10:22:28

大数据Hadoop

2012-05-31 14:54:59

Hadoop大数据

2012-06-29 09:19:39

大数据

2015-04-24 11:20:15

Hadoop大数据架构大数据

2021-12-01 10:18:54

数据匹配大数据数据分析

2013-05-30 13:40:10

小数据大数据网络流量
点赞
收藏

51CTO技术栈公众号