本文转载自公众号“读芯术”(ID:AI_Discovery)。
21世纪初,也许数据科学家的头衔在任何行业都不常见,但它迅速成为近几年职业趋势中爆发的热词。我们真的是第一次看到这样的工作吗?事实上,早在数据科学出现之前,我们已经有了一个非常相似的职业,现在也依然存在着——那就是统计学家。
两者的区别是什么?它们有什么相似之处?本文就将来回答这些问题。
数据科学家
这个角色最近变得非常受欢迎是有原因的。当你需要为公司招聘一位数据科学家时,你正在将多种角色融合到一个职位中。
成为一名数据科学家所需要的技能令人望而生畏,这个职业通常是跨职能的——需要同时掌握业务的技术技能和软技能。仅仅懂得编码技术还不够,还要知道如何与非技术性的利益相关者和公司领导一起解决重要的业务问题。有一些直接的技能是数据科学家需要知道的,但是有一些与职业不相称的技能,也必须在一些情况下通过一段时间的实践来掌握。
这些技能技术含量较低,通常包括但不限于:形成一个问题,形成一个问题陈述,为回答该问题创建一个过程,向利益相关者展示发现并解释结果。
数据科学所需的一些关键技能:机器学习库、Python、R编程、SQL……
统计学家
统计学家这一职业比数据科学家早出现很多年,无数的行业都需要这个职位。如果你想在医疗保健、安全、学术、市场营销、经济等多个领域工作,你一定要成为该领域的统计学家。
统计学家的主要职责包括但不限于:实验设计、开展研究、估算和开展调查。你还需要有强大的数学和实验设计背景。这个职位还需要软技能,包括向利益相关者报告你的调查结果,以及根据这些统计结果所需要的相应改变。
统计所需的一些关键技能:SAS编程、实验、设计、数学……
相似性
如你所见,即使这两个职业所需的一些技能并不完全相同,但有一些是相似的。以下是这两个职业的一些相似之处:
- 对数学的理解力
- 调查问题
- 探索性数据分析
- 趋势分析
- 预见性
- 可视化
- 向非技术用户报告调查结果
当然不止于此,这些仅仅是我在自己所了解到的职业以及各自的工作描述中遇到的一些相似之处。统计是否会随着时间的推移变得更像数据科学,还是反过来——或者它们是否会相互分化,这是一个有趣的问题。
差异性
现在,我们来讨论一下这些职业之间的区别。首先,统计学家比数据科学家存在的时间要长得多,这意味着差异可能存在于新技术中。
统计主要包括:
- 一次性报告
- 使用SAS编程
- 关注线性回归诊断图
- 重视显著性检验
- 注重t检验、方差分析和多元方差分析等
- 收集更多的人工数据(有时来自调查)
- 通常情况下,统计学家常见于医疗保健和经济领域
- 更学术化
数据科学主要包括:
- 自动化
- 使用SQL查询收集数据
- 机器学习库,如 sklearn和TensorFlow
- 使用Python和R编程语言
- 部署自动模型(用于应用程序)
- 重视软件工程实践
以上描述的差异也可以从工作描述和个人经验中感受到。由于公司不同,你可能会发现这些技能有重叠的部分。
综上所述,统计学家和数据科学家,数据科学研究和统计研究的区别是什么?可以用一个词来概括——新技术带来的自动化。
其中的一个职业比另一个更重要吗?不,它们都是重要的角色。如果你想专注于显著性、检验、实验设计、正态分布和诊断性绘图,那么去当统计学家吧。如果你想练习更多的软件工程,比如编码和机器学习模型的自动化,就去当数据科学家吧。你会发现,这两个职业的很多工作描述互相重叠,但很少发现统计学家需要使用机器学习库。
希望这篇文章对正在考虑开始新职业或转行的你有帮助。