在2021年伊始,Google数据与分析主管、NVIDIA工程部高级总监 ,以及Wealthsimple数据科学与工程副总裁等全球数据领导者,分享了他们认为的7种比较值得大家在新的一年里学习的数据科学技能。这些技能是各大公司正在广泛使用并推崇的。
首先需要申明,这七项技能都与机器学习或深度学习无关,这是因为目前,数据分析行业对建模前阶段和建模后阶段使用的技能有更高的要求。因此,这七个最值得学习的技能实际上与数据分析师、软件工程师和数据工程师拥有技能重叠。
那接下来就让我们深入探讨2021年比较值得学习的七项数据科学技能吧!
1) SQL
SQL是数据世界中的通用语言。无论你是数据科学家,数据工程师还是数据分析师,你都需要了解SQL。
SQL用于从数据库中提取数据、处理数据和创建数据管道。本质上,在数据生命周期中,它对于每个预分析、预建模阶段都很重要。
开发强大的SQL技能将使你能够将分析、可视化和建模都提高到一个新的水平,因为你将能够以高级方式提取和操作数据。而且,对于使用PB级数据(1PB=1024TB=2^50字节)的公司而言,编写高效且可扩展的查询变得越来越重要。
2) 数据可视化与数据讲述
如果你认为只有数据分析师才会专注于创建数据可视化图表和数据讲述(storytelling)的话,那你可能想错了。
数据可视化只是指以可视化的方式呈现的数据。它可以是以图形的形式,但也可以以非常规的方式呈现。
数据讲述(storytelling)将数据可视化提升到了一个新的层次——数据讲述指的是你如何传达你的见解。把它想象成一本图画书。一本好的图画书有很好的视觉效果,但它也有一个引人入胜的和强有力的叙述,连接视觉效果。
强化你的数据可视化和数据讲述的技能是必不可少的,因为作为一个数据科学家,你总是需要推销你的想法和模型。在与非技术人员或者跨部门沟通时(比如说服你的产品经理),这一点就显得尤为重要了。在这里给大家推荐一个Google的演讲视频,来自《Storytelling with Data》这本书的作者Cole Nussbaumer Knaflic,演讲的标题与书同名。
3) Python
在数据科学家中使用Python的比例正在逐年增高。学习Python语法很容易,但是你应该学习编写高效的脚本,并充分利用Python提供的各种库和包。Python编程是诸如数据处理、构建机器学习模型、编写DAG文件等应用程序的基础。
4)Pandas
可以说,Pandas是Python中最重要的包,它可以用于进行数据操作和分析。作为一名数据科学家,Pandas可以说是一个会被一直用到的工具,无论是清理数据、处理数据还是展示数据它都能胜任。
Pandas之所以能够成为如此流行的包,不仅仅因为它的功能强大,还因为DataFrame已经成为机器学习模型中的常用的数据结构。
5)Git/版本控制(Version Control)
Git是目前业界最流行的版本控制系统(Version Control System)。
如果这对你来说有点难以理解,那我来举个例子。在高中或大学的时候,假如你需要写一篇论文,那你的电脑里可能会随着你的进展保存下你论文的不同版本。例如:
开个小玩笑。Git是一个分布式版控制系统,其最大的特点是各开发者本地所复制的不仅仅是当前最新版本的文件,而是把代码仓库完整地从服务器上克隆了下来。这意味着代码文件(或代码仓库库)既存储在本地,也存储在中央服务器中。各开发者本地拥有代码仓库所有的文件以及文件历史和变更信息。这样即使服务器出现宕机,也不影响开发者本地开发,开发者也可以随时查看文件的各历史版本。
Git可以实现几个非常重要的功能:
- 它允许恢复到旧版本的代码
- 它允许几个数据科学家和程序员并行工作
- 它允许你使用与他人完全相同的代码库,即使你正在处理的是完全不同的项目
6)Docker
Docker是一个开放源代码软件项目。它是一个容器化的平台,就像机器学习模型,允许你部署和运行应用程序。
一个越来越重要的趋势是,数据科学家不仅需要知道如何建立模型,而且要知道如何部署它们,现在很多数据科学家的职位招聘都需要一些模型部署的经验。
因为一个模型在没有实际集成到与之相关的流程/产品之前,是没有产生任何商业价值的,这也是为什么学习如何部署模型如此重要的原因。
7) Airflow
Airflow是一个工作流程管理的工具,你可以自动地执行工作流程。换句话说,Airflow可以为创建全自动化的工作流水线,搭建数据流通道和机器学习模型。
Airflow功能十分强大,它可以将要用于进一步分析或建模的数据表格产品化,同时它还是一个可用于部署机器学习模型的工具。