在海量数据时代的大趋势下,微软增加了SQL Server大规模数据处理和并行数据仓库平台对开源Hadoop框架的支持。根据本周SQL Server团队的官方博客消息,配合微软数据仓库和Hadoop连接器的社区技术预览版也将会很快面世。
海量数据主要来源于企业中日益增长的数据,特别是Web流量等。微软在其博客上表示“我们的客户一直要求我们帮助其存储、管理并分析结构化和非结构化数据,特别是在Hadoop环境中存储的数据。”
微软表示,随着新连接工具的出现,客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。是原Yahoo员工Doug Cutting根据Google发布的学术论文研究而来,并以Google开发的MapReduce编程模型为基础。
围绕Hadoop的越来越多的商业生态系统渐渐出现,例如Cloudera公司就提供相关服务和专业的分布式框架。Forrester研究分析员 James Kobielus表示鉴于数据仓库商(如EMC和Teradata)已经可以开始采用Hadoop,所以说微软此举是明智的。他补充说“越来越多的企业正在运行Hadoop集群,他们希望能够将这些系统中的数据发送到数据仓库系统”。
但现在还没有哪家厂商可以提供整套Hadoop服务。其中包括分布式、Hadoop相关项目的连接器(例如Cassandra数据库)模块化工具和其他组件等。
毫无疑问,微软像其他的厂商一样,已经正式提出Hadoop的计划,但还没有将发展的路线图公布于众。同时微软支持Hadoop并没有影响他们自己的研究项目。上个月微软发布了Daytona项目,微软描述该项目是一个“运行在Windows Azure上的MapReduce”。主要是为了支持数据分析和人工智能算法。可支持扩展几百服务器内核并分析分布式数据。
最近,微软宣布他们已经发布了并行数据仓库设备的第二次更新,此次功能的更新兼顾软件组件和硬件组件。包括新的第三方BI(商业智能)连接器和 SAP、Informatica以及Microstrategy提供的数据集成工具。此外,微软表示基于戴尔硬件的并行数据仓库的版本已经有售,每TB的***价格为1.2万美元。
【编辑推荐】