微软建立R工具家族,将大数据带入寻常百姓家

译文
大数据
最近两年来,微软公布了一系列对于其R工具家族的重要更新。R语言已经成为微软数据战略的重要组成部分,在Azure与SQL Server中受到支持,更重要的是立足于Azure机器学习服务将预处理数据交付至机器学习管道。其还成为微软旗下的关键性跨平台服务器产品,面向红帽Linux与Suse Linux发布对应版本。

【51CTO.com快译】微软此前对Revolution Analytics的收购引发了多方关注,这家企业专门负责利用开源统计编程语言R开发工具以解决各类大数据难题。将开源模型与商用工具相结合,Revolution Analytics推出了一系列方案以支持学术及个人用例,同时利用Hadoop等相关软件通过大规模数据发掘潜在坐。在微软的掌控下,其被重新命名为R Server,并成为连接内部环境与云环境间数据的桥梁。

微软建立R工具家族,将大数据带入寻常百姓家

最近两年来,微软公布了一系列对于其R工具家族的重要更新。R语言已经成为微软数据战略的重要组成部分,在Azure与SQL Server中受到支持,更重要的是立足于Azure机器学习服务将预处理数据交付至机器学习管道。其还成为微软旗下的关键性跨平台服务器产品,面向红帽Linux与Suse Linux发布对应版本。

R语言在微软生态系统中随处可见

除了微软之外,开源R语言在数据科学领域亦扮演着重要角色,并在学术环境下获得大量支持。(根据IEEE统计,其人气在全部编程语言中排名第五位。)事实上,我们并不需要掌握专业的统计学知识即可使用R,因为Comprehensive R Archive Network(简称CRAN,一套R应用公共库)目前已经拥有超过9000套统计模块及算法可供用户选择。

微软的R版本是一套跨越桌面、内部服务器与云环境的解决方案。立足于本地,其提供一套免费R开发客户端,另外微软的付费旗舰级Visual Studio开发环境亦支持R语言。在内部设施领域,R Server运行在Windows与Linux系统,同时支持SQL Server,允许用户访问各类适用于自有数据的统计分析工具。其亦支持多种基于Hadoop与Spark的本地大数据服务,同时允许大家将R Server与HDInsight服务共同运行于Azure之上。

R是一款面向数据科学家的重要工具。尽管R语言相对简单,但大家仍然需要具备深入的统计分析知识才能发挥其全部优势。我个人的本科专业正是统计学,因此我发现R语言相当复杂,其中很多基本概念需要研究生水平的用户才能确切理解。而且问题并不在于大家是否有能力编写R代码,而是能否理解得到的结果。

这可能也正是各类企业在处理大数据时面对的***问题:获取您执行分析所需要的技能非常重要,但更重要的是必须利用同样的技能解释得到的结果。在这方面,R语言内置有绘图工具能够帮助大家对关键性统计指标进行可视化,从而简化理解过程。

配合微软R Server

免费微软R Open能够帮助您的分析团队快速上手R,且无需任何前期服务器产品投入。这同样是一款能够快速尝试新型分析算法并利用现有数据回答各类问题的实用工具。这套方案能够在整体分析生命周期内发挥重要作用,从数据准备开始,而后转向模型开发,最终将模型转化为能够内置于业务应用中的工具。

R语言还有另一种有趣的角色,即与基于GPU的机器学习工具进行协作。在这里,R用于协助训练模型以准备其后续规模扩展。微软已经在***的R Server版本中内置有其自主开发的机器学习算法,因此大家可以在将其上传至本地大数据实例或者云端前进行测试。在最近的一次发布会上,微软展示了这款方案的天文图像处理能力——他们首先利用一套银河星系资料库对基于机器学习的分类器进行训练,而后再将结果模型运行在云托管GPU之上。

R是一种轻量化语言,专门用于处理离散型数据样本。这意味着其***可扩展性且能够很好地应对数据并行问题。同一套R模型能够运行在多台服务器之上,因此快速处理大量数据变得非常简单。大家只需要对数据进行适当打包,而后将其交付至R Server实例中即可。同样的,同一组代码亦可运行在不同实现方案内,因此针对本地数据源建立的模型亦可部署在SQL Server中并用于处理Hadoop数据湖。

R简化可操作数据模型建立方式

因此,R能够轻松实现可操作性。您的数据科学团队能够建立您所需要的模型,而开发者则可编写应用并构建基础设施以发挥这部分代码的潜在优势。准备就绪后,该模型将能够快速部署甚至随时替换为未来经过改进的其它模型。同样的,我们亦可在不同应用内利用同一模型处理同一组数据。

作为一类常见模式,大家可以利用内部仪表板显示与面向客户及消费者的代码相同的处理结果。大家随后可利用此数据进行主动响应,例如提供延迟与改签信息以解决模型提出可能因天气造成的延误问题。随着数据量的增加,误报与假警报将不断减少,这意味着模型本身得到了改进。

在SQL Server中实现R支持***现实意义。首先,随着微软数据库平台开始成为内部数据与云数据间乃至用户记录系统与大数据工具之间的桥梁,在数据内纳入细粒度分析工具早已成为一种必然。利用一款简单的工具,我们可以利用R模型提供预处理结果,并将其用于SQL应用之内。数据库开发者能够配合数据分析团队以实现这些模型,且不必在构建应用时使用任何新型技能。

微软已经意识到,并非每家企业都需要或者有能力聘用数据科学家。对于各类常见分析问题,例如预测客户流失或者在线商店中的欺诈活动,SQL Server能够提供一系列预定义模板及对应模型。如此一来,用户即可利用任何R兼容性IDE对其进行定制,并通过PowerShell脚本完成轻松部署。

原文标题:Microsoft’s R tools bring data science to the masses,原文作者:Simon Bisson

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:赵立京 来源: 51CTO
相关推荐

2018-05-20 11:20:45

区块链智能区块链节点

2020-11-13 10:10:48

5G网络技术

2011-04-11 14:04:04

布线

2021-08-09 14:24:19

iOS苹果系统

2018-04-24 09:34:33

人工智能

2011-06-08 09:22:52

飞视美视频会议

2021-03-11 09:48:52

全光网络网络速率互联网

2020-10-26 18:00:43

数字货币比特币区块链

2011-09-23 10:44:31

打印机评测

2021-11-10 06:11:57

5G套餐5G运营商

2015-05-29 19:22:13

2013-11-25 09:20:44

4G资费终端

2022-07-07 14:06:39

LiBai模型库

2010-07-12 09:14:32

云计算百姓

2009-01-18 09:21:00

2011-07-12 13:04:03

智能手机平板电脑

2015-06-03 13:48:55

科技

2021-11-25 08:16:46

Wi-FiWi-Fi 6路由Wi-Fi 5

2012-04-06 08:22:01

股票
点赞
收藏

51CTO技术栈公众号