虽然这篇文章可能更多的是轶事,但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据,因为从我的经验来看,职位描述和实际工作之间似乎有很大的脱节。
您可能会注意到,这七个技能中的任何一个都与机器学习或深度学习无关,这不是一个错误。当前,对在建模前和建模后阶段使用的技能有更高的要求。因此,最受推荐的七种学习技能实际上与数据分析师,软件工程师和数据工程师的技能重叠。
我写了一篇文章,专门介绍了为什么不应该首先学习机器学习的原因-您可以在下面查看:
SQL
SQL是数据世界中的通用语言。无论你是数据科学家、数据工程师还是数据分析师,你都需要了解SQL。
SQL用于从数据库中提取数据,处理数据和创建数据管道。本质上,这对于数据生命周期中几乎每个预分析/预建模阶段都很重要。
开发强大的SQL技能将使您能够将分析,可视化和建模提高到一个新的水平,因为您将能够以高级方式提取和操作数据。 而且,对于使用PB级数据的公司而言,编写高效且可扩展的查询变得越来越重要。
数据可视化
如果您认为创建数据可视化和讲故事特定于数据分析师的角色,那么请往下看。
数据可视化只是指以视觉方式呈现的数据-它可以采用图表的形式,但也可以采用非常规的方式进行呈现。
数据叙事使数据可视化更上一层楼-数据叙事是指"如何"传达见解。 可以把它想像成一本图画书。 一本好的图画书具有良好的视觉效果,但也具有将视觉效果联系起来的引人入胜且功能强大的叙述。
开发数据可视化和讲故事的技能至关重要,因为您始终以数据科学家的身份出售自己的想法和模型。 与其他不懂技术的人交流时,这一点尤其重要。
Python
从我的交流来看,Python似乎是学习首选编程语言。这并不意味着如果你使用R,你就不能成为一名数据科学家,但这只是意味着你将在一种不同于大多数人使用的语言中工作。
学习Python语法很容易,但您应该能够编写高效的脚本,并利用Python提供的大量库和包。Python编程是一个应用程序的构建块,如操作数据,构建机器学习模型,编写DAG文件等等…
PANDAS
可以说,用Python中最重要的库是Pandas,它是一个用于数据处理和分析的程序包。 作为数据科学家,无论您要清理数据,浏览数据还是处理数据,您都将一直使用此软件包。
Pandas之所以成为如此流行的软件包,不仅因为它具有功能性,而且因为DataFrames已成为机器学习模型的标准数据结构。
Git /版本控制
Git是技术社区中使用的主要版本控制系统。
如果那没有意义,请考虑以下示例。 在高中或大学中,如果您不得不写一篇论文,则在进行过程中可能会保存不同版本的论文。 例如:
- Final Essay
- └Essay_v1
- └Essay_v2
- └Essay_final
- └Essay_finalfinal
- └Essay_OFFICIALFINAL
Git是一个功能相同的工具,只是它是分布式系统。 这意味着文件(或存储库)既存储在本地也存储在中央服务器中。
Git非常重要,其原因有以下几个:
- 它允许您还原到旧版本的代码
- 它使您可以与其他数位数据科学家和程序员并行工作
- 即使您正在开发一个完全不同的项目,它也可以使您使用与其他代码库相同的代码库
Docker
Docker是一个容器化平台,可让您部署和运行应用程序,例如机器学习模型。
数据科学家不仅知道如何构建模型,而且也知道如何部署模型,这一点变得越来越重要。 实际上,许多职位招聘现在需要在模型部署方面有一定经验。
学习如何部署模型如此重要的原因是,在将模型与与其关联的流程/产品进行实际集成之前,它不会产生任何商业价值。
Airflow
Airflow是一种工作流程管理工具,可让您自动化…良好的工作流程。 更具体地说,Airflow允许您为数据管道和机器学习管道创建自动化的工作流。
Airflow功能强大,因为它使您可以将要用于进一步分析或建模的表格进行生产化,并且它也是可用于部署机器学习模型的工具。
谢谢阅读!
我希望这有助于指导您的学习,并为您提供新年的方向。 有很多东西要学习,所以我肯定会选择一些听起来最有趣的技能,然后再去学习。