2011年,麦肯锡发布的《大数据》报告称,“仅美国就面临着14万至19万名具有分析专长的人才短缺,以及150万名具备理解并基于大数据分析做出决策能力的管理人员和分析师的短缺”。
2014年,我们调查了数据科学家的数量,当时的估计为50名至10万名,且当时并没有看到数据科学家大量短缺的证据。2014年,我们在indeed.com网站上仅发现了约1000个“数据科学家”的招聘广告。
2016年,我们研究了德勤的一项研究。德勤在研究中预测:到2018年,企业将需要100万名数据科学家。
现在已经是2018年了,所以我们可以检验上述预测的准确程度,并且尝试回答以下三个问题:
- 现在是否存在数据科学家的短缺?
- 现阶段有多少“数据科学家”?无论是名义上的还是实际职能上的。
- 数据科学家的未来前景如何?
1 数据科学家短缺吗?
第一个问题的答案似乎是肯定的。
LinkedIn公司在2018年8月发布的美国劳动力报告中提到:“对数据科学家的需求空前高涨……具有数据科学技能的人才短缺问题几乎存在于美国的所有大城市。在全美国范围内,共缺少151717名具有数据科学技能的人,其中纽约市(34032人)、旧金山湾区(31798人)和洛杉矶(12251人)的人才短缺尤为严重。”
值得注意的是,LinkedIn报告中的人才短缺是指具有“数据科学技能”的人,而不一定是拥有“数据科学家”头衔的人。
我们可以通过两个热门的求职网站——indeed和Glassdoor——来估计对“数据科学家”的需求。
在indeed.com网站上搜索美国的“data scientist”(加引号),只能找到约4800个工作岗位。
(注意:在indeed网站上进行搜索时使用引号十分重要。搜索没有加引号的data scientist可以找到约3万个工作岗位,但我们不确定这些工作岗位中有多少是针对其他领域的科学家的。)
美国是数据科学家最大的市场,却非唯一的市场。通过在indeed的区域性站点(indeed.co.uk、indeed.fr、indeed.de、indeed.co.in等)上进行搜索,我们可以发现其他国家对数据科学家也有强烈的需求:
在Glassdoor网站上输入“Data Scientist”进行搜索,可发现美国大约有2.6万个工作岗位(删除引号也会得到同样的结果)。
2 现阶段有多少“数据科学家”?
谷歌搜索将数据科学家定义为:“受雇用于分析和解释复杂的数字数据(如网站的使用统计数据)的人,从而协助企业做出决策。”
由于数据科学是集统计学、计算机科学、机器学习和商业于一体的交叉学科,因此在业界和学术界有许多人虽从事这项工作却没有正式的数据科学家头衔。因而我们可以通过调查流行的数据科学平台来估计当前数据科学家的数量。
Kaggle(现在是Google的一部分)是一个数据科学和数据分析的竞赛平台,它声称是世界上最大的活跃数据科学家社区。虽然并非所有数据科学家都参加过Kaggle比赛或拥有Kaggle账户,且并非Kaggle上的所有人员都从事数据科学工作,但我们可以合理地假设数据科学家群体与Kaggle人员群体存在大量重叠。 2017年6月,Kaggle的社区成员数量突破了100万。2018年9月19日的Kaggle电子邮件称,他们的社区成员数量在2018年8月超过了200万。由于并非所有Kaggle成员都是活跃的,所以Kaggle的社区成员总数可能是全球从事数据科学的人的数量最大值。
KDnuggets网站现在每个月有超过50万名独立访客,由于网站专注于帮助数据科学家和机器学习工程师更好地完成他们的工作,因而我们可以合理地认为网站的大多数访客都在数据科学或机器学习领域工作,无论他们的实际头衔是什么。但由于部分访客可能是无意中随机访问了KDnuggets,因而我们可以了解网站的订阅者或粉丝——这个更活跃的子集。
KDnuggets目前在Twitter、LinkedIn、Facebook、RSS和电子邮件上拥有约24万名订阅者或粉丝。虽然不同平台的人会有一些重叠,但对于全球众多的数据科学家来说,大约20万的人数预估似乎是合理的最小值。
在LinkedIn上,有许多致力于数据科学的组织。尽管这些组织的参与度一直在下降,但我们可以粗略地估计他们的成员数量。以下是三个最大的数据科学组织的预估成员数量:
这些组织成员的头衔有着巨大的多样性,这些头衔包括数据科学家、数据分析师、统计学家、生物信息学家、神经科学家、市场营销主管、计算机科学家等等……可以肯定地说,任何从事着传统数据科学家所从事的工作的人都可被认为属于这一类别。随着越来越多的人需要通过分析数据来获得见解或做出关键决策,传统上职位和职责不同的人们都热衷于学习数据分析这一新技术,以适应自己的领域。这虽然并不能使他们从根本上成为数据科学家,但他们确实拥有该领域的知识和才能。
我们还可以从数据科学家的LinkedIn个人资料中获取一些有用信息,这些资料显示有超过10万人拥有数据科学家头衔。
图1:LinkedIn数据科学家简介(按行业和地点分类)
在LinkedIn上搜索“数据科学家”(加引号很重要),我们发现超过10万人拥有该头衔。 因此,如果全球有20万到100万人在做一些与数据科学相关的工作,那么他们中的大多数人都没有数据科学家的头衔。
我们还可以通过查看与数据科学最相关的语言和平台(R、Python、机器学习库、Spark和Jupyter)相关的活动来估算大型数据分析/可视化/统计社区的规模。
Apache Spark Meetups上现有22.5万名成员,而且每个月都在增长。 Intel Capital估计全球有100万R程序员。 根据python.org网站上的公开数据,现在已有约275万次的下载量。 Jupyter项目目前拥有约300万用户。 这些数字可以为我们提供全球数据分析师或数据科学家数量的粗略上限。
3 数据科学家的未来前景
数据科学家近期的前景看起来很光明。
2017年的LinkedIn新兴就业报告称,2017年的机器学习工程师比5年前增加了9.8倍。 在LinkedIn报告上,机器学习工程师、数据科学家和大数据工程师跻身新兴岗位之列。 自2012年以来,数据科学家增加了650%以上。
图2:LinkedIn十大新兴职位及其增长情况(2012年至2017年)。
根据美国劳工统计局的数据,未来十年的就业增长预计将超过前十年的增长,到2026年数据科学或数据分析领域将创造1150万个就业岗位。
IBM最近宣称,到2020年,数据科学和分析职位的数量预计将增加近36.4万个,达到约272万个。 因而无论目前数据专业人员的真实数量是多少,他们的数量在不久的将来很可能会继续增长。
然而,从长远来看,自动化将取代业内的许多工作,数据科学家的工作也不例外。 如今,DataRobot和H2O等公司已经为数据科学问题提供了自动化的解决方案。
2015年KDnuggets民意调查中的受访者认为,大多数专家级的预测分析或数据科学任务将在2025年实现自动化。为了保住工作岗位,数据科学家应该专注于培养更难自动化的技能,如业务理解、解释和讲故事的能力。