大数据项目:购买还是自开发?

数据库
对于大数据相关的技术,CIO应该从外部引入还是在公司内部自行开发?这个问题没有简单明了的答案。但是,有一个原则是必须遵循的,即从增强公司竞争力的角度来进行选择。在之前的文章里,专家们认为,在做出大数据技术买入抑或自建的决策前,CIO们要比以往任何时候都更加重视对业务端的影响。而在本文中,我们将具体讨论买入或自建的决策依据。

Stephen Laster是位于纽约的McGraw-Hill Education集团的***数字馆(chief digital officer),其最主要的工作就是基于数据来对业务进行提升。Laster领导着一个由数据科学家和工程师组成的团队,负责制定并实施公司的e-learning和教育技术战略。换句话说,该团队负责McGraw-Hill Education的数字化学习产品。

[[118112]]

Laster团队的一个重要工作为学生提供高效、便捷的系统交互界面。在最近几年中,系统处理了多达40亿次的交互。

“对于特定的学生,我们能够获知其对概念的理解程度,知道他们还需要在方面加以努力,然后灵活地调整其学习路径,最终让学生们对知识形成整体的把握。”Laster说。

正因如此,Laster并不是大数据这个词的拥趸。相反,他更看重小数据的作用。为了为学生提供个性化的应用,该团队对数据进行实时分析,预测客户行为并构建具有自学习能力的小算法。

当Laster面临买入还是内部自建的问题时,他首先是了解市场差异化的机会,而不是基于项目本身 – 否则得出的结论将是自己从零开始构建。比如,针对关系数据库管理系统的IT战略,Laster是这样考虑的:“虽然看似已经没什么问题,但是为了服务的差异化,我们决定开发人工智能和算法。”

Laster及其团队一直都从业务产出入手进行思考:“首先,在教学和客户的学习方面,我们的目标是什么?然后,我们再回到技术的层面进行决策。

“一旦确定了目标,我们会进一步分解,然后逐个调查,看市场上是否有现成的解决方案?”Laster说:“如果有现成的产品,我们就购买或引入开源方案。如果没有的话,就自行构建之。”

最终,基于多年学术和工程研究成果,McGraw-Hill开发了一个名为LearnSmart的应用程序接口。Laster认为,这是真正能够推动企业前行的方案。

Palo Alto市的***信息官Jonathan Reichental认为,像McGraw-Hill这样通过自建而非买入方式,在应用层形成差异化的市场优势,是对本文主题的关键启示。“如果你是CTO,为市场提供服务,通常情况下你都是自建而非买入。”Reichental说:“但是,如果是面向企业内部提供服务,可能用SAP或者第三方产品是更适合的。”

构建面向用户的应用有助于消除和整合之前十多年间我们构建的各类最终被证明为失败的系统。

买入也可以形成差异化的优势

但是,Tagged.com(位于旧金山的社交媒体网站)的联合创始人和***技术官Johann Schleier-Smith认为,有时候买入是正确的选择。他与另一创始人Greg Tseng在10年前(与Facebook同时期)创立Tagged.com,当时大数据还没有大行其道。“我们用同样的数据库来同时支撑在线事务处理和业务分析。”

Schleier-Smith认为,如今的技术领域更加细分,比如NoSQL数据库、分析平台和开源的Apache社区。市场的扩充影响了Tagged公司的技术架构发展,该公司每月收集1000亿个数据事件,导致超过50TB的数据量加入到其PB级的存储集群中。其工程师团队基于各种开源技术进行工作,比如linux、Apache Kafka、Apache Spark和内存数据分析引擎。

同时,Tagged也采用了商业化的技术,比如EMC的Greeplum和Vertica。对于那些可以针对特定类型的查询(尤其是交互式查询)的高性能数据库技术,Schleier-Smith认为:“我们认为是值得买入的,因为能形成我们差异化的竞争优势。”

自建或买入?为什么不是租用呢?

另一家位于旧金山的创业公司ContextLogic则采用了10年前还不存在的方法。既不买入也不自行开发,ContextLogic从一家云计算厂商处租用服务,以此来管理其日志文件。

ContextLogic是社交购物推荐引擎Wish.com的技术供应商,后者据称日活跃用户数达110万,其中96%的用户是通过移动设备进行访问。这种模式下,对在线事件的抓取和记录是及其重要的,主要针对用户点击流,比如某用户是如何找到在线购物车的。所有的这些数据(每天大概有4000万到5500万需要记录的事件),都被保存下来供以后的分析用。

“数据的规模以及其时序性,使得日志分析非常有意思。”ContextLogic的联合创始人和工程运维负责人Danny张说:“这就是我眼中的大数据。”

随着公司的发展,日志数据的规模和重要性也日渐提升。“日志记录和分析对我来说是最基本的工作,也是大数据分析最重要的步骤。”张表示。这些数据蕴含了客户的购物偏好,是搜索引擎算法开发和ContextLogic业务决策的基础所在。由于发展迅猛,很难有外部的解决方案能够跟上其脚步,因此张倾向于自行开发的路线。但是,他同时也选择了大数据服务提供商treasure Data来管理日志数据,后者基于亚马逊的AWS为客户提供Hadoop平台。对此,张的解释是:“日志和我们的发展速度没关系,无论如何,我们都是以同样的方式来做这部分工作。”

而且,张还表示,租用基于云的数据管理服务其实也是一种成本优化。工程师们不用再为数据的规模而头疼,可以专注在数据的分析上。

“我们没有坐等***的解决方案从天而降,问题依然是问题,会一直存在下去。”张说:“我们只是碰巧选择了treasure Data,作为一种问题应对的方法。”

责任编辑:彭凡 来源: TechTarget中国
相关推荐

2013-04-22 10:00:53

云计算大数据

2023-10-13 13:11:26

大数据技术开源

2016-03-21 18:56:54

物联网IoTIT基础架构

2014-12-10 10:51:54

OpenStackSahara云计算

2022-06-30 21:08:25

大数据数据湖数据仓库

2023-05-10 16:04:38

大数据架构

2018-04-15 21:39:04

大数据项目应用

2019-05-23 09:50:46

大数据IT人工智能

2017-01-20 09:08:28

大数据路线应用

2016-01-26 10:02:18

GitHub大数据开源

2016-12-13 19:40:00

大数据

2018-04-02 10:58:28

大数据sqoop大数据项目

2015-03-17 16:02:16

大数据混合云云模型

2013-09-24 10:53:39

Gartner大数据项目

2017-02-23 08:12:35

科技新闻早报新闻解读

2018-04-11 09:50:04

大数据

2013-07-26 10:24:32

大数据项目大数据IT

2017-03-14 15:43:39

大数据项目Hadoop

2017-04-05 15:32:42

大数据项目问题

2017-12-11 11:48:56

大数据项目数据集成
点赞
收藏

51CTO技术栈公众号