解决大数据的开源工具

大数据
针对大数据的开源源代码平台变得十分流行。在过去的几个月里, 似乎几乎每个人都感觉到了影响。低成本、灵活性和适用于受过训练的人员是开源繁荣的主要原因。Hadoop、R和NoSQL是现在许多企业大数据策略的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析。”

针对大数据的开源源代码平台变得十分流行。在过去的几个月里, 似乎几乎每个人都感觉到了影响。

低成本、灵活性和适用于受过训练的人员是开源繁荣的主要原因。Hadoop、R和NoSQL是现在许多企业大数据策略的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析。”

几乎难以跟上它:SAP AG最近发布了一个新的产品, SAP BusinessObjects预测分析,软件整合了开源R语言的算法,该语言广泛使用在针对高级统计模型的学术社区。

几周之前, Teradata公司宣布其新的整合分析组合将包括R功能以及到GeoServer的一个连接,一个基于java的开源地理定位平台。无数其他公司正急于建立链接到Hadoop。

广泛的采用狂热的创新

James Kobielus,曾任Forrester研究公司的分析师 (他现在IBM公司大数据分析解决方案产品营销任高级项目主管),在一封电子邮件中这么写道,“开源方法有最广泛采用的势头和最狂热的创新”。

但急什么?

首先, Kobielus解释说,正如开源产品的范围从Mozilla到 Android,在诞生的阵痛之后已经在IT社区赢得广泛的接受,开源数据存储和分析软件现在已经成熟了(“不再是一两年以前高风险的赌注”,正如他所说的那样)。

其次, Kobielus写道,像Hadoop, R和NoSQL这样的平台比专门的软件享有优势, 因为它们能更快地演变。他们也在不断开发并为各种团体所改进。他预测, 开源很快将会主宰大数据市场。

“随着封闭式源码软件的足迹在很多数据/分析环境中的萎缩,许多现有的供应商将朝着开源的方向发展他们的商业模式,”他写道,“也会加大专业服务及系统整合以帮助客户走向开源的、基于云的分析,其中大部分集中在Hadoop和R。

例如,Forrester把Hadoop看作是下一代企业数据仓库 (EDW) 在云的核心,而把R看作是未来一波大数据开发工具主要的代码库。我们也期望各种开源NoSQL数据库和工具联合成为替代封闭内容分析产品的丰富选择。”

红帽(Red Hat)模型

不同的企业以不同的方式接近开源整合。有些企业,像SAP,选择使用他们自己内部的专家使用 Hadoop或R的功能开发产品,而其企业,像Teradata移交了大量的工作给像革命分析公司(Revolution Analytics Inc.)这样有些像红帽公司的大数据公司。该公司面向企业提供一种商业版的R, 就像红帽公司对Linux所做的那样。

一家小公司站在大数据巨头之间,这家公司专门为不同的业务流程的修改R,革命分析公司(Revolution Analytics)营销和社区副总裁David Smith说, “尤其是, 我们让它运行在真正的大数据集上。”

在产品中使用开源是公司在市场中突出自己的一种方式, Smith说。“根据定义, 这意味着你不做竞争对手在做的事。”

Smith说, 对于大数据分析采取先进的、科学的态度的企业,开源技术是一种自然的选择。“那些公司有一点数据科学的文化,对数据有探索和好奇心,真的已经被开源技术所吸引,因为它们如此灵活,并且向他们提供这些不同的方法思考数据并用这些数据探索不同的事情。”

革命分析的合作伙伴,Teradata实验室的总裁Scott Gnau说,大型企业将从开源技术的商业软件套装中受益最多,这样他们能持续专注于他们的特定业务线。

“在采用一些新技术中有很多价值被创造,在Hadoop和MapReduce的环境中开发,但将它们作为一种企业级的软件,有可靠的版本控制,并有可靠的可扩展性和有可得到的支持。

“它必须被打包并可靠地进入主流,因为大多数企业并不想集中去作软件开发”他说。

EMC Greenplum的产品营销经理Will Davis表示赞同。他说, 规模较大的公司需要更稳定、可靠的开源大数据平台化身,不管他们是否添加了自己的改进或依赖别人来帮他们做。

“很多企业…EMC的传统客户, 财富500强的之类的企业, 真的需要该技术的部署适用于企业, 以满足严格的服务级合同(SLA) ,并总是在线可用的,”他说。

一些早期的开源技术采用者开发出专业知识单干,但“第二波”的公司渴望可以快速建立并运行。 它们可能没有自己员工来作做开发的工作。

引入数据科学家

目前对大数据人才确实是有巨大的需求,而且企业正意识到运行开源平台成为可以吸引到受过训练的的人才的最佳位置。开源技术,尤其是R,被广泛应用于学术界。

此外,这些数据科学家能更好地利用开源平台。Imran Ahmad是一个数据科学家,他已经开发了自己的网格计算算法,称为Bileg的Hadoop竞争对手,它是基于开源的Globus 工具箱(GT4)的。多伦多一家为云环境开发数据分析技术的Cloudanum公司总裁说,开源平台最根本的优势是,像他这样的人能看到它根本的数学依据。

“如果在开源上,您可以向下挖掘并看到为什么我得到这些结果,为什么这些结果是最优的,”Ahamad说。

专有数据分析软件大多数时候能很好地工作,他补充道。但是当一个“不寻常的场景”出现时, 让你无法信任你的结果。“它们将偏离你要找的东西,”他说。“这真是一种正可怕的情况”。

毫不意外,有统计建模背景的聪明才智也供不应求,尤其是像如金融机构这样其它领域的机构正在求贤若渴。

“他们已经聘请了大批校外的人到数据科学部门或研发部门和建模部门,” Smith说,“而他们发现这些人都学习过R,而不是所说的SAS。”

所以毫不奇怪,有统计建模背景的聪明人才被求贤若渴,尤其当像金融行业大量招聘他们的时候。

“我们提供Greenplum的咨询业务,”Davis说,“这是我们的数据科学团队, 这些人是博士, 已经是各种行业及其相关行业的专家。我有聪明而勤奋的人 ,坦白说, 这些人正与客户一起让他们的数据发挥作用。”

SAP集团营销经理Jason Kuo说,需要执行比如预测分析这样复杂任务的公司无疑正在搜寻着高校的人才。他说, SAP的新产品组合了一个友好用户界面和拖放功能,将易于数据科学家转换角色到企业的世界里。

“这些人带着他们的R专长, R的背景,并寻求和R相关的工具,”他说。“现在有趣的是,在学术环境中,不管出于什么原因,不管是它的廉价或者熟悉度,他们更有可能使用没有GUI的 R,而不用图形界面。而现在他们走进企业的世界, 在那里他们的要求更高了, 项目转变的框架更快, 也许正在追踪投资回报率(ROI)等等。

“公司能说…你需要什么才能更成功? 我们如何能使你更有效率? 和他们为这些统计师准备了在过去不会有的预算。”

如果你不能战胜他们

SAS研究公司平台开发副总裁Paul Kent,为一家经常被视为属于大数据领域的对立面的公司工作,开发了专有数据分析算法替代那些用于像R这样的开源语言。

Kens说, 在某种程度上, SAS并把开源社区作为一个并肩齐驱的竞争者。新技术可以在开源环境中非常迅速地开发,而他的公司在将技术转化成适合市场的产品功能之前可能需要更多的时间来研究它们。

“我们需要更多一点时间对技术作出反应并测试所有的不同角落和排列你可能使用它的方式。所以, 我们的响应可能有点慢。

然而,他说,SAS在大型的技术支持市场有优势,而且有使技术适用于不同机构的专业知识,无论是零售企业、银行、或医疗机构。SAS的优势在于“对特殊领域的数学应用。”Kent说。

与此同时,他说,SAS掌握趋势,并给它的客户一样的开源选项。Kent说SAS已经“修建一座到R的桥梁”就像它对Hadoop所做的那样。Kent表示,每当开源社区有了好的创意,SAS都会关注。

“从长远看,搭建桥梁或界面到这样的创意是有用的,胜过试图假装它不存在。”

原文链接:http://www.chinabi.net/Article/binews/201209/2227.html

 

责任编辑:林师授 来源: 中国商业智能网
相关推荐

2019-04-08 17:16:43

大数据开源工具

2016-09-27 21:35:28

BossiesSparkTensorFlow

2018-02-23 16:38:58

2012-07-04 11:47:39

大数据开源

2015-08-10 09:23:05

2012-08-30 11:25:45

开源平台谷歌Drill

2011-03-01 10:47:20

开源技术

2018-06-05 12:06:20

Hadoop开源工具

2015-09-11 09:59:32

2017-07-20 16:40:36

大数据分析工具

2020-03-17 10:35:40

大数据IT人工智能

2015-08-10 10:37:42

2022-09-01 23:34:18

大数据数据分析工具

2022-08-31 17:01:56

大数据工具数据治理

2013-03-20 15:49:28

大数据

2013-05-07 14:56:27

大数据应用工具数据中心网络

2024-11-14 12:00:00

Python开源大数据

2020-04-08 16:41:18

大数据Hadoop工具

2019-11-06 15:01:30

大数据Hadoop技术

2019-06-27 15:54:44

大数据工具开源
点赞
收藏

51CTO技术栈公众号