2021年成为数据科学家最需要学习的7项技能

新闻
虽然这篇文章可能更多的是轶事,但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据,因为从我的经验来看,职位描述和实际工作之间似乎有很大的脱节。

 介绍

虽然这篇文章可能更多的是轶事,但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据,因为从我的经验来看,职位描述和实际工作之间似乎有很大的脱节。

[[373281]]

您可能会注意到,这七个技能中的任何一个都与机器学习或深度学习无关,这不是一个错误。当前,对在建模前和建模后阶段使用的技能有更高的要求。因此,最受推荐的七种学习技能实际上与数据分析师,软件工程师和数据工程师的技能重叠。

我写了一篇文章,专门介绍了为什么不应该首先学习机器学习的原因-您可以在下面查看:

SQL

SQL是数据世界中的通用语言。无论你是数据科学家、数据工程师还是数据分析师,你都需要了解SQL。

SQL用于从数据库中提取数据,处理数据和创建数据管道。本质上,这对于数据生命周期中几乎每个预分析/预建模阶段都很重要。

开发强大的SQL技能将使您能够将分析,可视化和建模提高到一个新的水平,因为您将能够以高级方式提取和操作数据。 而且,对于使用PB级数据的公司而言,编写高效且可扩展的查询变得越来越重要。

数据可视化

如果您认为创建数据可视化和讲故事特定于数据分析师的角色,那么请往下看。

数据可视化只是指以视觉方式呈现的数据-它可以采用图表的形式,但也可以采用非常规的方式进行呈现。

数据叙事使数据可视化更上一层楼-数据叙事是指"如何"传达见解。 可以把它想像成一本图画书。 一本好的图画书具有良好的视觉效果,但也具有将视觉效果联系起来的引人入胜且功能强大的叙述。

开发数据可视化和讲故事的技能至关重要,因为您始终以数据科学家的身份出售自己的想法和模型。 与其他不懂技术的人交流时,这一点尤其重要。

Python

从我的交流来看,Python似乎是学习首选编程语言。这并不意味着如果你使用R,你就不能成为一名数据科学家,但这只是意味着你将在一种不同于大多数人使用的语言中工作。

学习Python语法很容易,但您应该能够编写高效的脚本,并利用Python提供的大量库和包。Python编程是一个应用程序的构建块,如操作数据,构建机器学习模型,编写DAG文件等等…

PANDAS

可以说,用Python中最重要的库是Pandas,它是一个用于数据处理和分析的程序包。 作为数据科学家,无论您要清理数据,浏览数据还是处理数据,您都将一直使用此软件包。

Pandas之所以成为如此流行的软件包,不仅因为它具有功能性,而且因为DataFrames已成为机器学习模型的标准数据结构。

Git /版本控制

Git是技术社区中使用的主要版本控制系统。

如果那没有意义,请考虑以下示例。 在高中或大学中,如果您不得不写一篇论文,则在进行过程中可能会保存不同版本的论文。 例如:

 

  1. Final Essay 
  2. └Essay_v1 
  3. └Essay_v2 
  4. └Essay_final 
  5. └Essay_finalfinal 
  6. └Essay_OFFICIALFINAL 

 

Git是一个功能相同的工具,只是它是分布式系统。 这意味着文件(或存储库)既存储在本地也存储在中央服务器中。

Git非常重要,其原因有以下几个:

  • 它允许您还原到旧版本的代码
  • 它使您可以与其他数位数据科学家和程序员并行工作
  • 即使您正在开发一个完全不同的项目,它也可以使您使用与其他代码库相同的代码库

Docker

Docker是一个容器化平台,可让您部署和运行应用程序,例如机器学习模型。

数据科学家不仅知道如何构建模型,而且也知道如何部署模型,这一点变得越来越重要。 实际上,许多职位招聘现在需要在模型部署方面有一定经验。

学习如何部署模型如此重要的原因是,在将模型与与其关联的流程/产品进行实际集成之前,它不会产生任何商业价值。

Airflow

Airflow是一种工作流程管理工具,可让您自动化…良好的工作流程。 更具体地说,Airflow允许您为数据管道和机器学习管道创建自动化的工作流。

Airflow功能强大,因为它使您可以将要用于进一步分析或建模的表格进行生产化,并且它也是可用于部署机器学习模型的工具。

谢谢阅读!

我希望这有助于指导您的学习,并为您提供新年的方向。 有很多东西要学习,所以我肯定会选择一些听起来最有趣的技能,然后再去学习。

责任编辑:华轩 来源: 今日头条
相关推荐

2020-08-17 17:19:42

数据科学家技能数据科学

2021-02-16 00:18:43

数据科学机器学习IT

2016-04-11 14:15:06

数据科学数据挖掘工具

2021-02-09 10:53:21

数据科学数据分析IT

2018-02-28 15:03:03

数据科学家数据分析职业

2019-07-05 10:29:17

大数据数据科学家

2019-12-24 13:40:16

数据科学PythonPytorc

2021-03-05 11:19:30

数据中心云计算IT

2017-03-01 12:59:36

2017-02-06 17:22:33

2015-08-28 09:22:07

数据科学

2018-01-25 14:19:32

深度学习数据科学迁移学习

2017-08-04 15:53:10

大数据真伪数据科学家

2019-11-29 18:03:27

数学R语言算法

2020-03-20 14:40:48

数据科学Python学习

2018-05-03 09:11:51

数据科学家职业数据科学

2019-03-25 21:18:41

数据科学家大数据技能

2016-10-21 19:59:43

数据科学家数据科学

2013-11-12 09:27:01

大数据科学家大数据

2013-04-11 10:03:55

点赞
收藏

51CTO技术栈公众号