本文转载自公众号“读芯术”(ID:AI_Discovery)。
2012年,《哈佛商业评论》将数据科学称为“21世纪最性感的工作”,现在已经过去了近十年,这个领域仍然没有失去它的魅力。互联网上成千上万的视频和文章,为数据科学领域描绘了一幅美丽的图景。这些文章和视频告诉人们,这一行业将提供丰厚的薪水和灵活的工作时间。
他们说:“你所要做的就是学习技能A、B、C,报名参加一个训练营,再参加几个在线课程,就可以在数据科学领域找到工作了。“
由于这样的宣传,许多人对这个领域的真正本质产生了不切实际的期望。在缺乏相应研究的情况下,他们最终做出了一个可能永远改变他们生活的职业决定。
本文的目的并不是要诋毁数据科学领域,我不想阻止任何人在这个领域追求事业。我个人认为,只要投入适当的工作量和工作时间,任何人都可以成为数据科学家。然而,人们需要享受正在从事的工作。如果在不了解自己要从事行业的情况下仓促跳槽,人可能会浪费生命中的数年时间去做不喜欢的事情。
一个有创造力,有艺术天赋的人,那这个人会选择文科还是理科呢?我猜应该会选择艺术专业,因为这才是他更有兴趣的方向。
当面临这个选择的时候,我选择了从事数据科学。然而因为过量关于数据科学的炒作,我几乎不知道这领域真正需要什么。和数据科学课上的所有学生一样,在选择专业之前我几乎没有做过需要的研究。
但我很幸运,对我来说这个决定很棒。我恰巧很喜欢盲选的数据科学。但是人与人之间不尽相同,与我同班的很多学生后悔他们的决定,想要换专业。正如上方提到的,所有的一切都可以归结为一件事,是否对所做的事情充满激情。
在本文中,笔者将详细介绍数据科学领域。笔者将解释数据科学中可以选择的不同职业道路,并且描述不同道路需要做些什么。如果读者觉得这些职业道路具有吸引力,那么无论职业或教育背景如何,都可以去追求数据科学。
数据科学中的各种职业
“数据科学家”是一个涵盖性术语,用于描述各种不同的职业。这些职业可以互换,并且可能根据所在的组织有所不同。本文只是对一些数据科学中的常见职业的简要概述。
1. 数据工程师
不知道你之前有没有听过一句话,“真实世界的数据是混乱的。”这些数据来自于各种不同的渠道——如手机、闭路电视以及其他的设备。这些真实的数据是非结构化的,需要被清理、流水线化,并以一种结构化的格式储存,方便数据科学家和分析人员进行处理。做数据工程师并不需要机器学习或数据分析的知识,他们的工作是创建一个管理大数据的基础设施。
所需技能:数据工程师通常需要编写非常复杂的查询语句对大型数据集进行管理。因此需要非常了解查询所需的语言。根据合作的公司不同,可以使用SQL或NoSQL语言。
所需工具:MySQL,MongoDB,Cassandra等。
图源:unsplash
2. 数据分析
数据分析师是从数据工程师所清理过的数据中洞察出信息的人。分析人员在数据中寻找模式值与异常值,并得出规律,回答复杂的数据问题。
请想象这样一个情境——A公司卖糖果,想得知禁售前后糖果的销量是否发生变化。数据分析师根据公司需求,将查询数据,查看禁售前、禁售期间、禁售后的糖果销售趋势。为了更好地展示数据,分析师还可以采用可视化的方法——统计图和统计表来表达糖果销售的增长与下降。
这只是一个非常基本的例子,但是足以描述公司中数据分析师的职业。数据分析师可能还需要具备一些业务领域的知识,以便于理解客户的请求并根据他们的需求交付结果。分析师不需要具备机器学习的知识,也不需要创建任何类型的预测模型。
所需技能:分析师需要了解一种查询语言,这将根据公司的不同而不同。掌握一种或多种编程语言至关重要。分析师的主要任务是从数据中洞察出信息,因此没有必要对数据创建表或写入表。有可视化工具的知识将会非常有用。
所需工具:MySQL,Hive, Python, Tableau, Excel, PowerBI(根据工作的公司不同)。
3. 数据科学家
数据科学家是应用机器学习技术提出预测模型的人。数据科学家设计算法,根据所提供的数据做出预测,建立统计模型,做类创建推荐系统或是欺诈检测之类的事情。根据所在公司的不同,数据科学家可能也需要具备分析师的技能——接受业务请求、获得数据特性、完成可视化之类的事情。
我们常看到“数据科学独角兽”这个词,这个词指能够:
- 提出机器学习模型并做出预测
- 具有特定领域知识,能够将特定业务需求转化为数据问题
- 分析数据并提出商业见解
- 能够向客户展示/传达这些见解
综上所述,数据科学独角兽指懂得机器学习和数据分析、拥有领域相关知识、能够表达自己见解的人。然而在大多数数据为核心驱动的公司中,这几种工作是分开的。数据科学家的主要任务仍然是建立机器学习模型,并做出预测。
所需技能:一种或多种编程语言,较强的数学背景,统计学,机器学习。
所需工具:R,Python(工具包,如Caret和Scikit-Learn)。
你应该选择什么职业?
图源:unsplash
在数据科学的生命周期中,还有很多可以扮演的职业,如机器学习工程师,商业洞察师等。笔者上方列出了三个主要职位,在做出最后的职业决定前,你也应该对其他的职位也做一些调查。上文提到的所有职业都需要一些编程和查询的知识,这些并不难学习。
数据工程师可能是这三种角色中技术含量最高的,因为这需要比其他任何一种都需要更多的编程。如果读者更倾向于编程,并且了解数据库的来龙去脉,可以考虑成为一名数据工程师。
数据科学家的角色更注重于数学本身。如果喜欢数学,并对建立坚实的统计学基础感兴趣,可以考虑成为一名数据科学家。如果想成为一名数据科学家,则需要一个更强的学术背景,花更多的时间进行学习。需要了解编程知识(用R或Python编写),并使用工具包构建机器学习模型。
最后,数据分析师需要对数据具有洞察力的人。要成为分析师,则需要知道如何查询数据并找到符合顾客需求的见解。这在三个职业中最需要创意。从事这个职业需要将业务需求转化为洞察力,并进行可视化。还可能需要对客户进行展示。如果你是一个有创造力的人,有良好的表达和沟通技巧,数据分析可能相当适合你。
归根结底,做你喜欢的事,兴趣是第一生产力。