美数据科学家汪晓宇:如何破除中美大数据“三年差距”

新闻
在美国数据科学家汪晓宇博士看来,目前中美大数据产业在人员配置、技术开发和商业架构三个方面存在显著的差距。

目前,大数据正掀起一场革命,“数据就是生产力”这个说法也正从“预言”变成现实。

无论是哪一个行业,都再也没有办法躲避这一浪潮。无论是分析传统的结构化数据,还是分析其他千奇百怪、内涵丰富的数据,比如来自社交媒体网站、各种客服渠道的海量非结构化信息,对企业而言,都将成为提高竞争力、盈利能力以及最重要的创新能力的关键。

但是,对于企业的CIO、CTO们来说,真正把数据转化为驱动企业发展的生产力,并非那么简单。在这一方面,中国在大数据产业上的理念、痛点,与美国有着非常大的差距。

中美大数据“三年差距”差在哪里

“企业数据分析,中美在理念方面相差2-3年,而在实际执行层面或许有5年左右的差距。”美国数据分析科学家、Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士告诉记者。

3-5年的差距,在瞬息万变的信息社会,是一道不小的鸿沟。那么这道鸿沟,到底是怎么造成的呢?

在汪晓宇博士看来,中美大数据产业的差别,主要有人员配置、技术开发和商业架构三个方面。

首先,人才培养上的差异,是“五年鸿沟”的根本原因。

现在美国企业最热门的职位,非“数据科学家”莫属。这类在企业里掌握着数据“魔力”的人才,其实是大数据分析实际执行层面的关键。

在汪晓宇博士看来,未来的人才是“T”字型人才,数据分析师就是典型代表。“T”的一横代表着,他们对多领域和行业,比如金融、计算机、统计、商业和营销等都有过接触,有着跨行业的基础知识和视野;而“竖”代表着,他们对某个领域的专业理解和纵深积累。

美国在数据分析方面的教育上,就在努力转型,实践这种“T”字型理念:科研项目不再是由计算机系、商学院或者统计专业的学生单独进行,而是多个专业融合起来,形成整体战略方向。这样培养出来的人才,具备业务、营销、统计和计算机的多维度技能和知识面,才能被成为“数据科学家”。

这种前沿的教育理念,即使在美国,也才出现不到三、四年。但它取得的效果是根本性的——正是在这样的教育方式下,美国才培养出了***批数据科学家,引导了企业的数据革命。这也反映出了中美人才梯队和培养机制的巨大区别。

而中国受到传统教育体制的限制,更重视纵深的专业技能,也就是“T”的那一“竖”,缺少跨学科和专业的综合性体制的建立。这样培养出来的人才,不知道横向的概念,只见树木而不见森林,造成企业用人的时候,还需要花很多时间,对毕业生进行重新培训,额外花费很多时间和金钱。但是,最为关键的还是,他们无法主动引导企业建立和完善数据分析机制,让企业可以在短时间内就从“数据分析”中受益。

汪晓宇博士说,与此相反,“T”字型的毕业生,不是重新需要训练的学徒,而是已经基本掌握了既定的分析方法的“熟练工”,他们可以帮助企业建立新的分析模型,甚至有自己成系列的解决方案带给企业,可以激发相互的生产力和数据分析能动性,这比单单的商业分析员或者IT员工,价值都要大得多。

其次,技术工具上的差异,让这道鸿沟难以短时间内跨越。

人才没有到位最直接的后果就是,企业在进行数据分析时,仍然只能选择大而全、千篇一律的整体解决方案,无法创新地结合多种工具,对某个类型的数据进行深入地挖掘和分析,这样就无法发掘出数据真正的价值。

汪晓宇博士说,美国企业已经普遍开始追求垂直创新的小工具,进行非常纵深的研究,比如Taste Analytics的非结构化数据分析工具,就已经吸引了多个财富500强客户,帮他们专注非结构化数据的分析;但是现在中国市场上,流行的产品解决形态仍然是诸如SAP、SAS这类的的整体解决方案,虽然可以覆盖到数据分析的基本方面,但是却失去了对数据的深入挖掘能力。

“事实上,非结构化数据的模块化更加灵敏,不是传统的单一解决方案可以做到的。” 汪晓宇博士说,“在美国,企业倾向于使用的BI(Business Intelligence,商业智能)工具,都是横向加纵向的组合,这样才能提取出数据的真正价值。”

第三,商业架构被这道鸿沟影响,也在反向加深着鸿沟。

人才、技术和商业,都存在着链条式的关系。人才的差别让创新工具无法得到广泛的使用,而技术形态的差异导致中美在大数据商业架构上也呈现出不同特点。

汪晓宇博士说,中美对大数据分析的清晰度是不一样。美国企业高层既可以在大方向上知道大数据可以做什么,又明白应该怎么把数据分析应用到策略里,和经济效益直接挂钩。

比如,和美国CIO、CTO们说起产品时,他们可以迅速做出反应,考虑的是应该怎么把产品放到他们的解决方案中间去,和现有业务进行快速整合。“我们和美国的企业聊,他们很快就意识到自己的非结构数据化分析没做好,下一步,他们就主动谈起应该怎么把Taste Analytics的非结构数据化分析应用到他们的战略中去。”

但是,国内的理解是仍然是偏整体化的。虽然大数据已经得到了普遍认可,但是企业只接受概念和这个趋势,仍然无从深入,没有清晰认识到它应该怎么和业务、经济效益挂钩。“最主要还是没有发挥企业内部分析师等人的能动性,” 汪晓宇博士说,“数据科学家还不存在,或者说整个体系还不成熟。”

中美CIO、CTO痛点存在差异

但是,这五年差距并不是一开始就存在的。在汪晓宇博士看来,美国企业已经交过学费、走过弯路了,才走到现在这一步。“其实最开始,大家都不知道应该怎么做。但是美国企业愿意交学费、雇佣***数据科学家、使用新工具,对数据的理解已经脱离了概念层面,真正从大数据的利用上获得了效益。”汪晓宇博士说。

而国内还处在尝试和吃螃蟹的阶段,对数据的理解很表面化。“人人都说好,但是看不到真正的价值。”汪晓宇博士说,“要想打破这个困局,就需要决策层的决心,真正去咬下***口螃蟹。”

但是从另外一个方面来说,中美数据分析也不能雷同。因为数据是人产生的,中国消费者和美国差异非常大,数据的反馈途径也不一样,所以,也不能盲目照搬美国。

在和国内的20多家企业聊的时候,汪晓宇博士也发现,国内的瓶颈是数据采集点很有限。比如分析客户的邮件和网络聊天记录时,他发现,人们更喜欢直接打电话和客服沟通,这种商品环境就需要独特的解决方案。所以Taste Analytics在国内加大了语音分析服务的比重。

另外,数据采集之后的数据交易环节,中美也是不一样的。在美国,A银行可以公开买到B银行的数据,但是国内企业通常只能看到自己的内部数据,而无法看到竞争对手以及整体行业趋势;甚至在社交网络上,数据的差异也很明显,比如社交网络上的第三方数据,美国真实性就比中国要更高。

数据分析和交易的不同,导致了中美CIO、CTO痛点的差异。

对此,Taste Analytics的***数据分析师俞立博士就有非常深的体验。 他表示,在他和国内公司交流的过程中发现,国内缺乏数据的人才和工具,同时,数据分析也无法和企业经济效益挂钩。

“大数据光环很好,但是如何用不知道,给谁用也不知道,那么离他们真正使用产生经济效益,还有2-3 步的过程。”俞立博士说。 比如他们接触到一个大型运营商就曾经希望基于大数据给他们的客户推荐业务,但是交流之后发现,他们对非结构化数据分析的理解还停留在简单的舆情分析上。也就是说,他们想做的系统,其实还是美国5、6年以前就存在的推荐系统。

痛点难点这么多,怎么破?

对于中国企业如何应对数据分析领域的痛点,汪晓宇博士看得非常清楚。作为前北卡大学夏洛特分校的助理敎授、夏洛特视觉中心主任以及Taste Analytics的CEO,他对中美的大数据分析产业都有着很深的理解。

在汪晓宇博士看来,最根本的解决方法在于改变人才培养的机制,让企业把眼光放长远,和高校合作。 “CIO和CTO应该多和高校合作,深入到员工池里培养人才。”汪晓宇博士说。这一点已经成为美国企业和高校的共识。在美国,企业们会对高校进行资助,并且根据企业的需求和实践,来影响学校的课程,把课程倾向于实践的方向,这样可以让高校更有针对性地培养人才。

而对于企业来说,另外很重要的一点就是,不要害怕交学费,应当大胆尝试新工具。汪晓宇博士认为,企业不要怕花学费,应该尝试新的解决方案,尝试新的BI工具,因为只有尝试了,才知道那个工具会产生怎样的价值;如果总是寻求旧的解决方案,那么企业将无法真正挖掘出数据的价值。

第三,保持开放的心态,公开非机密数据,实现行业共赢。 从学术角度看,大数据分析的技术基础无非统计学、深度和机器学习这三个既成的方向,但是要真正应用到企业,一方面,企业应该多看其他行业怎么做,举一反三,实现跨行业的理解;另一方面可以适当地公开非机密数据,鼓励所有人一起挖掘企业数据的价值。

比如美国知名流媒体服务商Netflix,就曾经在一个网络数据分析机器学习的社区上拿出100万美元的高额奖金,鼓励人们用任何工具,分析他们的数据。 “把核心数据拿出来,让大家帮助分析,在传统产业数据分析的解决方案基础上,尝试新的方案。这样整个行业才可以得到整体发展。”汪晓宇博士说。

责任编辑:鸢玮
相关推荐

2017-08-04 15:53:10

大数据真伪数据科学家

2013-11-12 09:27:01

大数据科学家大数据

2013-11-13 10:20:19

数据科学家大数据Gartner

2018-02-28 15:03:03

数据科学家数据分析职业

2012-12-24 09:54:06

大数据数据科学家

2012-12-26 10:51:20

数据科学家

2015-10-16 09:44:51

2015-08-28 09:22:07

数据科学

2018-12-24 08:37:44

数据科学家数据模型

2019-11-22 19:54:46

戴尔

2013-05-10 09:28:14

大数据数据科学家SAS

2012-12-26 10:18:47

大数据数据科学家

2012-12-25 09:58:50

数据科学家大数据

2018-10-16 14:37:34

数据科学家数据分析数据科学

2015-12-18 16:32:36

Taste Analy大数据云计算

2012-06-12 09:33:59

2015-10-08 10:09:42

2016-08-17 09:50:27

大数据数据科学家

2018-08-20 19:24:40

数据科学数据清理数据分析

2016-10-21 19:59:43

数据科学家数据科学
点赞
收藏

51CTO技术栈公众号