借助微软大数据实现快速发展

云计算
本文的目的是为微软大数据提供一个情景提要,作为在创建详细的宣传信息和其他市场宣传品之前,提供快速的信息的宣传截至。

本文的目的是为微软大数据提供一个情景提要,作为在创建详细的宣传信息和其他市场宣传品之前,提供快速的信息的宣传截至。新的TDM宣传页已经完成制作并提供出来以帮助解决方案销售专员(SSP)、基础平台专家(PPS)、以及其他面向客户人员,来介绍微软大数据应用相关的成功案例。最终将形成一个全新的销售宣传手册,来帮助我们的客户深入了解这一领域并从中收益。

数据新世界

[[87640]]

所以大数据有什么了不起的呢?大数据在IT产业已经成为一个热门话题,因为它涉及对今天的商业一个重要的挑战话题。数据世界正在不断变化,而且客户面临的挑战是不断增加的数据容量、种类和速度。数据存储的容量成倍增长,要归功于新数据源的出现,如RFID、网络和社交媒体。根据IDC的数据,在2020年全球数据的容量将达到35 ZB(即35万亿TB),比2009年增加了44倍!数据类型或数据种类存储也越来越多样化。多数分析师认为,高达85%的新数据都是非结构化的数据,如文本、网络日志、视频、

照片。同时,捕获数据的速度不断增加,客户希望能够做出基于数据流的实时决策。例如一个大型零售商有一个RFID流的库存水平,并且希望能够在数小时之内做出库存补充和定价的决策。

随着数据的容量、多样性、和速度呈现爆炸式的增长,存储和处理数据在软件和硬件两方面的成本显著降低。在硬件方面,过去几十年计算和存储能力呈现指数级的增长,硬件的成本也因此几乎降低为零。现在,您可以花费不到100美元即可完成1TB容量的存储的采购。与十年前的价格相比,整整降低了100倍。在软件方面,新兴的技术,如Hadoop和MapReduce等,可以帮助客户在基于行业标准的硬件环境当中建立大型分布式存储和计算机群,显著改变数据处理和分析的经济效益。这些改进带来了计算机历史上首次存储和处理数据的成本低于从这些数据当中获得的预期价值。例如,组织可以选择存储数年的网络日志数据,即使它们并不知道将来这些数据可以被用以何种用途,而在过去,它们并不会将这些数据保存一个月以上。这种“解决一切”的方法和不断改变的经济影响正在迎来新一轮的机器学习和先进分析的研究热潮,如神经网络、基因算法、图像分析、以及TB级的数据分析和预测模型等应用领域,正在引领客户来不断寻求一系列新的业务相关的问题答案。

这些新的问题包含了社交网络分析、如我们的品牌和产品定位是怎样的?我的在线竞争策略如何更加有效?我应该联系谁?我该如何进行优化以吸引正确的目标读者?需要连接到实时数据反馈的问题、如一个大型的运输公司需要使用实施的天气资讯和交通状况数据,来优化他们的运送和交付线路,以实现更好的交付时间、降低运输成本;需要先进分析的问题、如金融公司通过机器学习来构建更好的超越了简单的业务规则的反欺诈检测算法,通过引用支付频率和地点、以及包括针对个人定制的购买模型等,带来更好的客户体验。

这些趋势第一次将企业的财务表现和它们的投资通过一个现代的信息管理系统建立直接的关联。这些新的需求挑战传统的数据管理技术,并且需要一个新的解决方案来帮助组织有效地管理、优化、并从任意数据当中获得内在的业务洞察。

微软为所有的数据提供了一个端到端的平台,并提供了最容易使用的工具来分析这些数据。微软的数据平台可以无缝地从任意地点(包括本地服务器或云端)、管理任意大小(GBàTBàPB)的所有数据(包括关系型、非关系型、以及流数据),通过将世界的数据连接到一起,丰富现有的数据集合,并帮助用户通过Microsoft Office和SharePoint等用户熟悉、易于使用的工具,从这些数据当中获得洞察力。

现在,客户可以通过我们行业领先的数据库产品—SQL Server 2012、SQL Server Parallel Data Warehouse应用系统、行业排名第一的数据集市—Azure Marketplace数据集市等来管理他们的关系型数据,以及用户熟悉的商业智能工具,如PowerPivot for Excel和Power View for SharePoint等来管理它们的关系型数据。此外,我们支持新的功能,如通过SQL Server StreamInsight提供的流数据支持功能,我们将包含一个新的在Windows Azure平台上的基于Hadoop分布式平台和Windows Server来处理PB级的非结构化的数据,帮助您实现您的基于SQL Server的关系型数据库当中的数据、以及在Hadoop当中的非结构化的数据的快速移动。

从任意地方管理任意大小的任意数据数据管理的需求已经从传统的关系型数据存储演变成为关系型数据和非关系数据存储并存的时代,现代信息管理平台要能够支持所有类型的数据。SQL Server在支持非传统和非结构数据类型,如 XML、blobs 和file-streams上面,已经有很长的历史。我们将沿着这条道路继续努力,SQL Server也将提供在企业内部服务器和云上的企业级Hadoop支持。

除了支持所有类型的数据、支持从非关系型数据存储(如Hadoop)移出和移入数据以外、现在关系型的数据仓库也是大数据客户使用模式之一。例如,Yahoo,作为Hadoop应用领域的先驱之一,将其网络日志信息存储在一个6PB的Hadoop集群当中,并集成了一个24TB的SQL Server Analysis Services Cube来支持常用的商业智能分析工具,如Excel和PowerPivot等来进行数据分析。为了支持这一常用的使用模式,我们提供了存储在Hadoop和现有的SQL Server数据仓库环境—如SQL Server Parallel Data Warehouse—等之间的支持高速数据移动的连接器。

在我们推出我们的基于Hadoop的产品时,我们把Windows的可靠性、可管理性、和易用性融入到Hadoop环境当中。我们将重点关注通过集成Active Directory实现产品的安全增强,通过与System Center集成,减少打包和软件分发时间,从而简化运营管理并大大减少安装和配置部署时间。这些功能改进将使得IT能够在整个Hadoop集群当中采用一致的安全策略,并通过System Center所提供的一个单一的面板来管理它们。对于我们在Windows Azure平台上提供的基于Hadoop的服务,我们将会继续降低服务部署的门槛,为客户提供以服务的方式使用大数据的功能,通过基于Web的门户来简化Hadoop集群的设置和配置。微软将会成为业界唯一一家同时提供了在企业内部服务器上和云端部署可扩展的大数据解决方案的厂商,所有的产品均部署在一个通用的平台上,提供了用户熟悉的、功能强大的商业智能工具。

最后,我们不仅提供基于开源的Hadoop的软件产品,而且承诺反馈我们的更新到Hadoop社区。微软承诺对Apache Hadoop API提供100%的兼容性,所以所有基于Apache Hadoop编写的应用程序将能够在Windows平台上运行。通过与Hortonworks密切协作,微软已经正式提交了在Windows Azure和Windows Server上提供基于Hadoop的软件方案的实现方案,并将其作为Apache基础代码变更的一部分。此外,我们也在同更多的功能进行协作,如Hive Connectivity,以及由微软和Hortonworks联合开发的JavaScript库,并将其作为Apache Software Foundation贡献的一部分。

通过与全世界数据连接在一起提供增强的功能

 

[[87641]]

从未像今天这样有如此丰富的外部可用的和有价值的信息,涵盖了以下这些不同的应用领域:

l 个人数据:由我或者我的伙伴创建的数据,有相关的任务需求;

l 组织数据:是在整个组织范围内维护和管理的数据;

l 社区数据:是来自组织外部的数据,如采集的分享到公用的公共领域的第三方的数据集,如data.gov或社交网络数据;

世界数据:这是在全球舞台上的所有其它数据,例如来至传感器的数据或日志文件,

l 以及已经出现的技术,如支持大数据的Hadoop。

借助外部数据来丰富您的数据,能够以一种过去不可能的方式来帮助您回答新的问题并提供新的价值。例如Klout,一个快速成长的创业公司,旨在帮助每个人了解和利用他们的社会影响。他们使用来自13个不同社交网络的数据,每天处理30亿的消息,来衡量和排列用户的影响力。在几年前,Klout整个商业模式根本不存在,因为他们没有办法将他们的数据连接到世界数据。通过将您需要的外部数据整合到您的数据平台,来丰富您的数据源,从而让您能发现、整合和优化您的数据。

l 发现数据:今天,在组织内部很难找到合适的数据,更何况在外部。一个典型的分析师花太多的时间从成千上万信息来源搜寻正确的数据,对生产力产生负面的影响。我们将从整个世界范围内搜寻,根据用户是谁、从事怎样的工作将其所需的信息提供给用户。

我们提供专门的工具,来发现组织内部和外部数据。Azure代号为“Data Explorer”的实验室,旨在帮助客户通过自动提议,来发现相关数据集,例如,如果一个分析师建立一个为中小型客户细分模型,并选择客户数据集,该工具就可以自动推荐相关数据集,如Dunn和Bradstreet提供有用的信用信息。另一个代号为“Data Hub”的实验室,旨在帮助组织创建一个私有的专属数据市场,提升组织内部的数据发现、共享和分析的模式。Azure Marketplace数据集市能够发现和共享外部防火墙和第三方数据源。

l 联合数据:通过Azure Marketplace,我们帮助客户连接到数据、智能挖掘算法和在防火墙以外的人。通过联合信息从社交媒体网站,如Twitter和Facebook,客户可以解锁关于他们客户的价值信息,加强客户关系和增加收入。基于云的实验室代号为“Social Analytics”的项目让客户集成设计媒体数据到商业应用程序。此外,Windows Azure Marketplace从受信任的第三方供应商,如:D&B、United Nations、US Census Bureau等等,提供成千上万的数据集。它还提供第一和第三方应用程序和挖掘模式,客户可以从他们的数据集当中获得新的业务洞察。

优化外部数据:我们使得客户将原始数据转换为有意义的业务洞察,通过企业信息管理功能和先进的分析优化数据。通过SQL Server Integration Services(IS)、以及SQL Server Data Quality Services(DQS)数据清洗和SQL Server Master Data Services(MDS)数据管理等功能组件,SQL Server提供了强大的数据转换功能。在先进分析当中,我们提供了SQL Server Analysis Services(SSAS)数据挖掘工具和支持常用第三方工具和l 框架,如‘R’ 和Mahout。

为所有用户提供的可操作的洞察

[[87642]]

毋庸置疑,大数据的真正价值是提供关于新数据的新的业务洞察,包括之前丢失或存档的非结构化的数据。早期的大数据适配器只实现了这样一种功能,如,麦肯锡指出一家全球型的饮料公司降低其库存,并提高了其在核心市场的预测精度达5个百分点,而实现这一目标是在其库存计划当中整合了天气数据(如某天的温度、降雨量、以及日照时间等)。

要全面实现这一价值,企业需要驱动所有的用户采用正确的工具,而不只是只有BI专家或数据科学家进行组织协作,这些正确的工具应当能够在所有的设备上运行,以支持所有的用户。通过熟悉的工具如PowerPivot for Excel和Power View for SharePoint,我们使得所有的用户能够在所有结构化和非结构化的数据上进行分析和制定决策。通过Hive Add-in for Excel和Hive ODBC Driver,我们帮助所有的终端用户实现了到Hadoop当中的数据的简单和直接的访问。

对于开发人员而言,我们降低了产品所要求的技术集的门槛、通过编写运行MapReduce作业的基于JavaScript的第一级类语言,简化了Hadoop的编程

结论

数据世界正在经历大的变革,客户的期望也在相应地变化。我们同时为存储在内部服务器上和云端的结构化的、非结构化的、以及流数据,提供了最完整的和可扩展的数据存储功能。客户可以通过发现、优化和连接到位于组织外部的数据、设备、和人员,来丰富现有的数据集,并帮助所有的用户通过熟悉的Excel和SharePoint等工具,从大数据当中获得新的业务洞察。

特别地,微软的大数据解决访问提供了一个最好的端到端的平台,帮助用户通过我们行业领先的SQL Server 2012、SQL Server Parallel Data Warehouse应用系统来从任意地方来管理任意大小的任意数据,SQL Server StreamInsight实现了对流数据的管理,新的功能如我们在Windows Azure和Windows Server上的基于Hadoop的分布式解决方案实现了对PB级的非结构化的数据的处理。通过业界第一个数据集市—Azure Marketplace数据集市—连接世界的数据从而丰富您的数据。通过用户熟悉的工具,如PowerPivot for Excel、以及Power View for SharePoint等,帮助用户从任意地点利用任意设备来为所有用户释放可操作的业务洞察。

责任编辑:王程程 来源: 51CTO
相关推荐

2012-07-03 09:59:47

微软Cloud Numer大数据

2013-10-21 10:51:26

微软大数据

2016-04-08 17:55:23

HPE大数据Haven

2015-05-05 09:50:45

大数据实现块数据

2015-07-13 14:27:48

大数据Cloudera价值

2016-09-13 22:46:41

大数据

2020-06-08 19:30:21

大数据技术智能建筑

2015-01-15 15:45:29

浪潮

2014-09-16 13:33:50

大数据

2012-12-20 13:02:20

2013-03-04 15:04:16

2013-04-23 14:36:54

2014-08-20 09:40:56

大数据实践项目

2014-03-19 10:40:14

大数据

2017-02-07 10:11:14

大数据交通

2016-11-01 14:43:36

2013-07-18 11:44:04

大数据

2014-12-16 19:05:51

Informatica大数据

2013-01-24 10:53:40

2015-09-10 13:54:40

大数据浪潮
点赞
收藏

51CTO技术栈公众号