赢在起跑线，数据科学必备5大技能-数据科学重要技能

数据科学领域竞争激烈，人们正在迅速发展越来越多的技能和经验。

“R、Python、SQL和机器学习”一直是数据科学家的标配。但随着这个领域的发展，这些技能已经渐渐不足以在就业市场上保持竞争力了。

2020年，为了不被时代淘汰，数据科学家也需要发展开发人员的技术。

下面小芯就为大家整理了，2020数据科学必备的5大技能，请收好~

1. CloudandBigData

机器学习产业化对数据科学家的约束越来越严重，同时也成为数据工程师乃至整个IT行业的严重约束。

在数据科学家可以致力于减少模型所需时间的情况下，IT人员可以通过更快的计算服务来做出贡献，如：

Cloud：将计算资源转移到外部供应商(如AWS、MicrosoftAzure或GoogleCloud)，可以很容易地建立一个可以从远程访问的非常快速的机器学习环境。这就要求数据科学家对云功能有一个基本的了解，例如使用远程服务器而不是自己的计算机，或者使用Linux而不是Windows/Mac。

PySpark正在为parallel(BigData)系统编写Python

BigData：快速学习IT的第二个方面是使用Hadoop和Spark，这两种工具允许同时在许多计算机上并行处理任务(工作节点)。这要求数据科学家使用不同的方法来开发模型，因为代码必须允许并行执行。

2. NLP, NeuralNetworksandDeepLearning

最近，一位数据科学家仍坚持，NLP和图像识别仅仅是数据科学的专业，并非所有人都必须掌握。

你需要理解深度学习：基于人脑思想的机器学习

但是，图像分类和NLP的用例越来越频繁，甚至在“常规”业务中也是如此。如今，对这种模式有一个基本的了解已经成为行业最低标准。

就算你的工作中没有此类模型的直接应用程序，实际操作的项目也很容易找到，并且可以让你理解图像和文本项目中所需的步骤。

3. Agile

Agile是一种组织工作的方法，已得到开发团队大量使用。越来越多的人涉足数据科学领域，他们最初的技能是纯软件开发，机器学习工程师的角色也应运而生。

Post-its和Agile似乎是并驾齐驱的

越来越多的数据科学家或机器学习工程师被视为开发人员：不断改进现有的代码库中的机器学习元素。

对于这类角色，数据科学家必须了解基于Scrum方法的Agile工作方式。它为不同的人定义了不同的角色，这种角色定义保证了持续改进和顺利实施。

4. Industrialization

在数据科学领域，我们思考项目的方式也在发生变化。数据科学家一如既往地用机器学习来回答商业问题。然而，越来越多数据科学项目为生产系统开发，例如，大型软件中的微服务。

2020赢在起跑线，数据科学必备5大技能

AWS是比较大的云供应商

与此同时，高级模型的CPU和RAM消耗也越来越大，尤其是在使用神经网络和深度学习时。

就数据科学家的工作要求而言，不仅要考虑模型的准确性，还要考虑项目的执行时间或其他工业化方面，这一点变得越来越重要。

和微软一样，谷歌也有云服务

5. Github

Git和Github是面向开发人员的软件，能够管理不同版本的软件。它们跟踪对代码库所做的所有更改，此外，当多个开发人员同时对同一个项目进行更改时，此类软件能够真正增加协作便利性。

GitHub是个不错的选择

随着数据科学家的角色变得越来越重要，能够处理这些开发工具就成了关键。Git正成为一项严肃的工作要求，要适应最好的使用Git，是需要时间的。当你一个人或者和新同事一起，研究Git很容易，但是当你作为一个新人加入一个Git专家团队，你可能会比想象的还要更难适应。

Git是GitHub真正所需的技能