创造或产生的信息量或数据量每天都在迅速增加。医疗、零售、资讯科技、咨询,甚至政府机构等多个业界的数据量都在快速增长。这种增长的基本原因是,越来越多的人拥有比以往更多的工具来创建和共享信息。
在不久的过去,行业和组织在做出关键决策时,很大程度上依赖于猜测。而大数据和数据科学让他们能够浏览大量的信息,并在解决各自行业的问题时感到自信。
随着可用数据量的增加,管理信息或数据的问题变得更加困难。为了处理这些不断增长的数据并理解这些数据,需要越来越多的数据科学专家,以便组织能够对其业务做出明智的决策。
由于最近几年数据量的爆发式增长,全球数据科学专家的数量也在增加。所以,问题来了,如果数据科学专家的数量逐年增加,那么专家们在哪里存在,比例又是多少呢?
本文我们将尝试用 2011-2018年 Stack Overflow 的调查数据来寻找答案。多年来的调查数据可以在 https://insights.stackoverflow.com/survey ) 找到。
Stack Overflow 是一个每月都有大量的活跃用户的在线技术论坛。利用调查结果,我们可以发现一般软件工程师社区以及数据科学社区的见解。在这次分析中,我使用 “2011-2018年 Stack Overflow 开发者调查” 的数据来了解数据科学社区的增长情况。
一般来说,数据科学社区包括“数据库管理员”、“商业智能专家”、“数据仓库专家”、“机器学习专家”、“数据科学家”和“具有统计或数学背景的开发人员”。
本文分析了全球不同国家、不同行业和不同规模企业的数据科学社区增长的比例和趋势。
因此,我们可以先问自己以下几个问题:
- 从2011年到2018年,数据科学社区的增长趋势是什么?
- 数据科学社区在哪些国家发展?
- 近年来各国数据科学社区的发展趋势是什么?
- 数据科学社区在哪些行业增长,占多大比例?
- 近年来,不同行业的数据科学社区的发展趋势是什么?
- 在哪种类型企业(小型、中型和大型)中,数据科学社区增长了? 比例是多少?
- 近年来,不同规模的企业在数据科学领域的增长趋势是什么?
以上问题的答案均以调查数据为依据。让我们逐一回答这些问题。
1. 从2011年到2018年,数据科学社区的增长趋势是什么?
从上面的可视化结果我们可以看出,近年来,数据科学社区在软件开发人员中发展迅速。它从2014年才开始显著增长,但2015年后开始呈指数级增长。这与最近几年的也是指数级的数据爆炸是同步发生的。
从那以后,数据爆炸越来越多。为了从每天产生的新数据中进行处理和分析,全球每年都在创造越来越多的数据科学工作。
2. 数据科学社区在哪些国家发展?
从上图我们可以观察得到数据科学专家数量排名前十的国家中数据科学社区的发展趋势。美国增长的趋势较高,其次是印度、德国、英国等。
美国数据科学社区的增长趋势呈指数级,处于全盛时期;其次是印度、德国和英国的数据科学社区,增长趋势也呈指数级,但尚未达到全盛时期。对于加拿大、巴西、俄罗斯、法国、澳大利亚和西班牙等其他国家来说,数据科学社区的人数有所增加,但与前四个国家相比增速缓慢。
从美国拥有硅谷时起,它就成为了大型软件和IT组织、银行、金融和保险公司、医疗服务提供商、教育机构、更好的基础设施的领军者和技术家园,并始终处于技术和 IT 先进程度的顶端,这些行业及其创建的日常服务仅在美国就创建了大量的数据。因此,与其他国家相比,美国需要更多的数据科学专家,这是具有指数增长合理性的。
印度一直是美国 IT 服务供应商国家中很重要的一部分,美国与印度具有相同份额的 IT 工作量。与美国一样,印度在上述各个领域也有自己的一套数据科学要求。因此,印度正在创造大量的数据科学机会,印度数据科学社区快速增长。
德国、英国以及其他排名前六的国家也是如此。大量的数据被创造出来,为了处理、保存和理解这些数据,每个国家对数据科学专家的需求也在快速增长,但是根据每个国家的需求和市场的不同,需求增长的速度也不同。
从上方的可视化图中,我们可以观察到排名前十的国家的数据科学社区的增长趋势,但现在是按某个国家历年的份额(或比例)来衡量的。因此,对于每个国家来说,2011年专家的比例较低,之后专家的比例上升,直到2018年,专家比例增加较为明显。
此外,比例的增长是指数级的,这与这些国家近年来以指数方式制造的数据是一致的。我们可以清楚地看到,每一个拥有数据科学专家的排名前十的国家都有相同的模式,即多年的指数增长,但他们的速度不同。
3.近年来各国数据科学社区的发展趋势是什么?
从上图中,我们可以得到以下结论:
- 在2011年,并不是所有排名前十的国家都在使用数据科学。大多数国家的数据科学专家比例为0,只有美国、英国、澳大利亚和德国等少数国家有数据科学的存在,而美国在前10名的所有国家中占有50%的数据科学专家份额。
- 美国的份额每年都远远超过其他国家。2011年,美国在数据科学专家中所占的比例约为50%,并且逐年在不同国家的数据科学专家中所占的比例都在提高。2018年,美国拥有数据科学专家数量约38%的份额。
- 随着时间的推移,其他国家也开始使用数据科学,占其他国家的比例从0上升到20%。
- 不同国家的数据科学专家群体增长率不同,特别要说的是印度,从2011年的0增长到2018年的18%左右。
- 德国的份额也有所增加。澳大利亚在几年间逐渐失去了它的份额。英国先是有所增长,但随着时间的推移,这一比例略有下降。
- 自从其他国家开始拥有数据科学社区的份额,美国失去了一些它在数据科学社区的份额,但仍然保持所有这些年较高百分比。
2011年,使用数据科学的国家份额差异较大,这一比例差异逐年减小,到2018年,国家之间的份额差异变得更小。这意味着排名前十的国家中,每个国家都在使用数据科学。但根据需求和市场的不同,每个国家使用数据科学的份额也有所不同。
4. 数据科学社区在哪些行业增长,占多大份额?
综合2011-2018年各年份的数据,在2017年和2018年的调查中,没有关于个人所属行业的数据。因此,以下推论基于2011-2016年的调查数据。
从上面的可视化结果来看,几乎所有的行业都或多或少地使用了数据科学,主要应用于软件产品、金融和银行业、咨询、医疗和教育行业。此外,从可视化结果中我们可以看到,最多数据科学专家的行业对应的是 “Other”,这表示 Stack overflow 的调查中没有使用数据科学的行业。
“Other” 可以指各种行业,如:各种类别的研究、医药、制药、电子商务、建筑、运输、保险、旅游和酒店、公用事业、自然资源和能源等。
在现在这个轻科技时代,所有行业和组织都被数据淹没,数据正以指数级的方式被创造出来。因此,数据科学正以不同的比例被各行各业所使用,因为数据科学会产生更明智的决策。
- 从上图中我们可以观察到数据科学专家排名前十的行业中数据科学社区的增长趋势。这里的 “Other” 行业也可以看作是指各种研究、医药、制药、电子商务、建筑、运输、保险、旅游和酒店、公用事业、自然资源和能源等行业。
- 数据科学社区在软件产品和金融/银行业呈指数增长趋势,在咨询、教育、医疗保健领域的增长也呈上升趋势,但相较之下速度较慢。
- 互联网、政府、媒体/广告和制造业也有上升趋势,但只是在 2014年之后,而且与其他行业相比,增幅非常小。
- “Other” 是许多其他行业的组合,其上升趋势明显,因为它结合了“Other” 类别中每个行业的趋势。
使用数据科学的行业的上升趋势就像指数一样,它与跨行业的数据也在以指数的方式被创造密切相关。
行业内数据的创造和交换的增加意味着,行业需要更多的数据科学专家来保管和处理数据,以数据为参考,从而在不同的行业中为各自的业务做出更好、更明智的决策。
根据每个行业的需要、需求、地理位置和市场,数据科学专家的需求以不同的速度增长。因此,2014年之后,几乎所有行业都在使用数据科学。
5. 近年来,不同行业的数据科学界的发展趋势是什么?
从上面的图中,我们可以观察得到以下结论:
- 在2011年,并不是所有排名前十的行业都在使用数据科学。10个行业中有3个行业的数据科学专家比例为0。
- 2011年,软件产品在数据科学界的份额为30%,其次是咨询和金融/银行业,各占20%,这3个行业占数据科学专家份额的70%。其余30%的份额中,其他行业和教育行业各占10%,医疗和制造业各占5%。
- 直到2013/2014年,媒体/广告,互联网,政府才开始占有份额。
随着时间的推移,前十大行业的数据科学社区所占的份额也在不断上升和下降。多年间这些行业所占比例的差异越来越小。
- 从那以后,其他行业也开始有了自己的份额,软件产品、咨询、金融/银行业在数据科学领域的份额逐年下降。
- 从图中我们还可以看出,数据科学专家所在的 “Other” 行业,可能是指各种研究不同、药品、医疗、电子商务、建筑、运输、保险、旅行和酒店、公用事业、自然资源和能源等的增长超过了其他行业。在2011年之后,该行业一直位居前两位。这意味着数据科学在许多其他行业中得到了应用,而不仅仅局限于少数行业。
2014年以后,各个行业在数据科学的使用上保持了一致性,各行业的数据科学专家份额约为3%至18%。
2011年使用数据科学的行业份额差异更大,而且这一份额差异逐年下降,2018年,行业份额差异变小,这意味着前十大行业中的每一个都在使用数据科学,但根据每个行业的地理位置、需求和市场的不同,所占份额也有所不同。
6. 在哪种类型的企业(小型、中型或大型)中,数据科学社区增长了? 比例是多少?
由于 Stack Overflow 在2014-2015年间没有与企业规模相关的数据,我们使用了 2011-2013年 和 2016-2018年 两个时间段来推测不同规模企业的数据科学专家的趋势。此外,对于这两个时间段,行业规模的类别也有所不同。
下图是2011-2013年的观察结果:
从以上对 2011-2013年使用数据科学的不同规模企业所占份额的可视化结果,我们可以得到较早期,即 2011-2013年间的以下结论:
这里小型企业是初创企业 (1-25人)和成熟小企业(25-100人)的组合,中型企业是指中等规模 (100-999人),大型企业是指财富500强 (1000+人),我们可以作如下陈述:
- 小型企业拥有35%的数据科学专家份额,中型企业占29%,大型企业占36%。
- 2011-2013年中型企业拥有数据科学专家35人,略低于小型企业的42人,大型企业的43人。
因此,在2011-2013年,如果我们将初创企业和成熟的小企业视为小型企业,2011-2013年数据科学专家在不同规模企业中所占的份额分布大致相同。
以下是2016-2018年的观察结果:
从以上对 2016-2018年 不同规模企业使用数据科学比例的可视化结果我们可以看出, 2016年到 2018年期间,小型企业(0-499名员工)拥有的数据科学专家远远超过中型企业(500-4999名员工)和大型企业(5000–10000+员工)。数据科学专家在小型企业中的比例是 65%,中型企业和大型企业中分别是 16.47% 和 18.22% 。
因此,大部分数据科学专家位于小型企业(1-499名员工)和超大型企业(10000+名员工),两者的份额之和为 79%,其余 21% 的份额位于其他企业(500-9999名员工)。因此,数据科学专家要么在小型企业工作,要么在超大型企业工作。
与 2011-2013年相比,2016-2018年期间,小型企业的数据科学专家份额有所上升,而中型和大型企业的数据科学专家份额有所下降。
下面可能是它发生的潜在原因:
- 到 2016年,数据科学已经出现了面向未来的新技术。因此,现有的小型企业开始聘请越来越多的数据科学专家,就像大型企业在 2011-2013年所做的那样,以便处理和保存不断增长的数据,并能在各自的业务中做出明智的决策。
- 由于数据科学对全球各个行业都产生了巨大的影响,具备处理各行业数据科学需求能力的新的初创企业或小型公司纷纷涌现出来,它们聘请了具有数据科学技能的人才。这些初创企业愿意为数据科学专家提供高待遇,因为这些小型组织知道,他们将从这些招聘中获得回报和收益,因为数据会以指数方式增长,对数据的服务的处理、保存和理解的需求也将增加,从长远来看会使小型企业受益匪浅。这导致了与 2011-2013年相比的小型企业中数据科学专家数量的增加。
自 2016-2018年以来,小型企业的数据科学专家份额逐年上升,而中型和大型企业的数据科学专家的比例有所下降。
7.近年来,不同规模的企业在数据科学领域的增长趋势是什么?
以下是2011-2013年的观察结果:
从上面的图形,我们可以得到以下结论:
- 2011年,初创企业(1-25人)和大型企业(1000+员工)在 4个类别中排名垫底,而到了 2013年,他们排名前两位。
- 类似地,2011年,成熟的小企业(25 - 100员工的)和中型企业(100 - 999)在 4个类别中排名前 2,而到了 2013年,他们排名垫底。
- 因此,几年间初创企业(1-25人)和大型企业(1000+人)的数据科学专家所占份额呈上升趋势,而中型企业(25-100人)和成熟小企业(100-999人)的数据科学专家所占份额呈下降趋势。
大型企业拥有更多数据科学专家的一个潜在原因是,大型企业在投入研究和开发,并对未来几年将更有生产力、更高效和更广泛应用的技术抱有愿景。
由于大型企业已经知道每天的数据创造量呈指数级增长,他们雇佣了更多的数据科学专家,以便更好地处理和保存数据,并在各个业务中做出明智的决策。
另一方面,很少有初创企业是由一群预见到数据科学成为未来技术的潜力的志同道合的人创办,并在 2011年至 2013年期间开始聘用数据科学专家。中型企业也聘用了数据科学专家,但专家的数量出现了上下波动。
此外,在 2011-2013年期间,数据科学专家的数量要少得多。因此,大型企业对罕见的拥有数据科学技能的数据科学专家的负担能力更强。初创企业或许可能是由数据科学专家自己创办的,因此他们不得不聘请志同道合的数据专家加入。因此,大型企业和初创企业的数据科学专家数量有所增加。
此外,与其他规模企业相比,大型企业拥有庞大的数据,大型企业对数据科学专家的需求比其他规模企业更大,从而雇佣的数据科学专家比其他规模企业更多。而对于初创企业来说,由于他们的形成只是由于未来数据科学的巨大潜力,所以更多的数据科学专家被雇到初创企业中。
以下是2016-2018年的观察结果:
从上面的可视化图中,我们可以观察得到以下结论:
- 小型企业(0-9,10-19,20-99,100-499人)呈逐年上升趋势,中型企业(500-999,1000-4999)、大型企业(5000-9999,10000+)呈逐年下降趋势。因此,从 2016-2018年开始,小型企业(1-499人)的数据科学专家数量在不同规模企业中所占的比例逐年上升,而中型企业(500-4999人)和大型企业(5000-10000 +员工)的数据科学专家所占比例逐年下降。
- 2016-2018年间,超大型企业(10000+员工)在不同规模企业数据科学专家所占比例中每年都处于前 4 位。
因此,2016-2018年间,小型企业(0-499名员工)和超大型企业(10000+名员工)的数据科学专家数量在不同规模企业的总和中占有最多比例。
总结
因此,综合所有问题的答案,根据 2011-2018年 Stack Overflow survey 的数据,我们可以得到:
随着数据以惊人的速度增长,明智的选择是注意这一点 —— 不可以忽视数据革命。
在数据高速增长的背景下,对数据科学专家的需求也在快速增长,但根据每个国家和行业的需求、地理位置和市场的不同,其增长速度也不同。
数据科学专家主要分布在美国,接着是印度、德国、英国、加拿大等其他国家。
几乎所有行业都在或多或少地使用数据科学,而其主要应用在软件产品、金融和银行业、咨询、医疗和教育等行业。
到2018年底,不同规模的企业中,小型企业(0-499名员工)和特大型企业(10000多名员工) 的数据科学专家所占份额不小。
虽然在某一时刻,数据爆炸可能会开始放缓,但事实是企业和消费者每天每秒都在不断地创造新的信息。企业需要创建、存储、管理和分析手边的大量数据,对于所有行业来说,这都提供了数据科学项目的业务需求。
因译者水平有限,如果文章中有问题或者错误,请大家多多指正,谢谢。
译者简介
李洁,北京师范大学香港浸会大学联合学院 数据科学系助教,香港科技大学电信学硕士。