【51CTO精选译文】开源浪潮之所以风生水起,开源技术成本低、灵活性强,又有受过培训的人员,这是几大原因。Hadoop、R和NoSQL现在是许多企业制定的大数据战略的三大支柱,无论这些战略是管理非结构化数据,还是对非结构化数据进行复杂的统计分析。
专有软件厂商几乎很难跟得上开源的步伐:德国SAP公司最近刚发布了一款新产品:SAP博奥杰预测分析软件(SAP BusinessObjects Predictive Analysis),这款软件整合了用开源R语言开发的算法。而R这门语言只用在学术界,用于高级统计建模。
仅仅几个星期之前,全球领先的数据仓库专家Teradata公司宣布,其新的集成分析产品系列不仅包含R功能,还包括与GeoServer的连接,GeiServer是一种基于Java的开源地理位置平台。另外无数公司正竞相开发与Hadoop相连接的产品。
广泛采用,狂热创新
James Kobielus现在是IBM公司大数据分析解决方案的高级项目主管,他还在知名调研机构弗雷斯特调研公司担任分析师时,曾在一封电子邮件中写道,“开源方案风头甚劲,得到了最广泛的采用,创新势头最狂热。”
为什么会呈现这样迅猛的势头?
Kobielus解释,首先,正由于从Mozilla到安卓的各种开源产品在经历了一些初期的阵痛后在IT行业得到广泛接受,开源数据存储和分析软件现在也已成熟起来(用他的话来说,“它们不再像仅仅一两年前那样是有风险的投入”。)
Kobielus写道,其次,Hadoop、R和NoSQL等平台与专有软件相比有一个优势,原因在于它们能够更快速地改进。而且它们也得到许多不同机构的不断开发和完善。他预测,开源很快会开始主导大数据领域。
他写道:“随着闭源软件在许多数据/分析环境的地盘不断缩小,许多老牌开发商会改进各自的商业模式,向开源方案靠拢,还会加大专业服务和系统集成方面的力度,帮助客户向开源、面向云的分析产品迁移,主要致力于Hadoop和R。”
“比如说,弗雷斯特公司认为Hadoop是下一代云端企业数据仓库(EDW)的核心,认为R是接下来一批集成的大数据开发工具中的主要代码库。我们还预计,众多开源NoSQL数据库和工具会合并成为功能丰富的解决方案,作为闭源内容分析解决方案之外的一种选择。”
红帽模式
不同的企业对待开源集成的方式各不相同。SAP等一些厂商选择了运用自身的内部专长,开发带有Hadoop或R功能的产品;Teradata等另一些厂商则把大部分工作交给了像Revolution Analytics公司这样的公司。Revolution Analytics这家公司有点像大数据领域的红帽公司,它提供面向企业客户的商用版R,就像红帽对Linux采取的做法那样。
Revolution Analytics的市场营销和社区副总裁David Smith表示,这家公司与大数据巨擘相比只是家小公司,专门为不同的业务流程改动R。他说:“尤其是,我们让它可以处理非常庞大的数据集。”
Smith表示,产品中使用开源技术是许多公司力求在市场中脱颖而出的一条途径。他说:“就本身而言,这意味着你不走竞争对手所走的路子。”
Smith表示,有些企业在大数据分析方面采用了激进的、科学的方式,对它们而言开源技术是理所当然的选择。“有些公司在数据科学、数据探究和数据分析方面有一定的基础和传统,它们其实被开源技术所吸引,因为开源技术非常灵活,有助于企业从不同的角度来考虑如何处理数据、探究数据。”
Scott Gnau是与Revolution Analytics进行过合作的Teradata实验室的总裁,他表示,大企业从商用开源技术软件包得到的好处将***,那样他们就能把精力集中在特定的业务活动上。
“采用在Hadoop和MapReduce环境开发出来的一些较新的技术,可以带来很大的价值,但是把它们作为一种企业级软件来部署;在这种环境中,有可靠的版本控制,有可靠的可扩展性,还可以获得支持。”
他说:“产品想进入主流市场,就必须做成软件包,必须可靠,因为主流用户不想成为软件开发公司。”
EMC Greenplum的产品营销经理Will Davis同意这一说法。他认为,大型公司需要更稳定、更可靠的开源大数据平台,无论它们自己加以完善,还是靠别人替自己加以完善。
他说:“许多企业是EMC的传统客户,这些都是大型的《财富》500强公司,其实需要随时可以部署到企业环境的技术,能够满足严格的服务水平协议(SLA),能够随时可用。”
一砦开源技术的早期采用者已积累了单干的专长,但是“第二波公司”渴望尽快搭建并运行起来,本身可能没有人才来自己动手干。
数据科学家登场
这年头,大数据方面的人才的确需求量很大;许多公司认识到,如果运行开源平台,自己就最有希望吸引来受过培训的人员。开源技术、尤其是R在学术界广泛使用。
此外,这些数学科学家能更娴熟地使用开源平台。Imran Ahmad是位数据科学家,他开发了自己的网格计算算法:这种与Hadoop竞争的算法名为Bileg,基于开源Globus工具包(GT4)。他现在是总部设在多伦多、为云环境开发数据分析技术的Cloudanum公司的总裁;他表示,开源平台的根本优势在于,像他这样的人能看到底层的数学基础。
Ahamad说:“如果它采用开源技术,你可以深入挖掘,看看为什么我得到这些结果,为什么这些结果是***结果。”
他补充说,专有的数据分析软件大多数时候运行起来相当好。但是出现“不常见的场景”时,你无法信任自己获得的结果。他说:“它们离你所需要的结果相距甚远。这确实是一种很可怕的情况。”
这就难怪,统计建模方面有基础的最出色人才也是需求量***的,特别是由于其他行业的企业(如金融机构)在四处寻找这类人才。
Smith说:“这些企业聘请刚从学校出来的大批人,派到数据科学部门、研究开发部门和建模部门。他们发现,所有人都接受过R方面的培训,但没有接受过专有技术(如SAS)方面的培训。”
Davis说:“我们Greenplum设有一个咨询部门,这其实是我们的数据科学团队,成员大多是博士学位,拥有众多行业和垂直领域方面的专长。老实对你说,我这边有超***天才,他们与客户共同努力,让客户能够充分地利用自己的数据。”
SAP公司的集团营销经理Jason Kuo说,需要执行像预测分析这些复杂任务的公司正在许多高校搜罗人才,“这是毫无疑问的事实”。他表示,SAP的新产品将方便数据科学家向企业界转型。这款新产品结合了易于使用的界面和拖放式功能。
他说:“那些人带来了R专长和R背景,要求使用R方面的工具。如今在学术环境值得关注的是,不知出于何种原因——无论是预算还是熟悉程度,他们使用没有图形用户界面(GUI)的R的可能性大得多。而现在他们进入到企业界;在企业界,对他们的要求更高了,项目交付时间缩短了,可能还要考评投资回报,等等。”
“公司可以这样说,你要怎样才能取得更大的成功?我们怎样让你能提高工作效率?过去,他们可能对这些统计人员没有预算,但现在有预算了。”
如果你打败不了开源,那就…
SAS软件研究所的平台开发副总裁Paul Kent效力的这家公司经常被认为属于大数据鸿沟的另一个阵营,开发与R等开源语言所用的那些算法相竞争的专有数据分析算法。
Kens表示,从某种程度上来说,SAS确实把开源社区看作是自己要全力跟上的竞争对手。新技术在开源环境下能非常迅速地开发出来,而他公司需要更长的时间来研究这些新技术,之后转变成某项有销路的产品特性。
“我们需要更长一点的时间对新技术作出反应,并测试可以使用该技术的所有不同场景。所以,我们的反应可能有点慢。”
不过他表示,SAS的优势在于设有一个庞大的技术支持部门,而且拥有让某些技术适用于不同企业的专长,无论是零售企业、银行还是医疗机构。SAS的强项在于“能够将算法运用于特定的领域,”Kent说。
他表示,与此同时,SAS及时了解趋势,决定照样为客户提供开源方案。Kent表示,SAS已经“搭起了一座通往R的桥梁”,就像它对Hadoop采取的做法那样。Kent表示,只要开源社区提出了一种好的想法,SAS就会引起注意。
“从长远来看,与开源想法搭起桥梁或建立接口要比试图对开源想法视若无睹来得明智。”
原文:Open Source Answer to Big Data