数据科学领域竞争激烈,人们正在迅速发展越来越多的技能和经验。
“R、Python、SQL和机器学习”一直是数据科学家的标配。但随着这个领域的发展,这些技能已经渐渐不足以在就业市场上保持竞争力了。
2020年,为了不被时代淘汰,数据科学家也需要发展开发人员的技术。
下面小芯就为大家整理了,2020数据科学必备的5大技能,请收好~
1. CloudandBigData
机器学习产业化对数据科学家的约束越来越严重,同时也成为数据工程师乃至整个IT行业的严重约束。
在数据科学家可以致力于减少模型所需时间的情况下,IT人员可以通过更快的计算服务来做出贡献,如:
- Cloud:将计算资源转移到外部供应商(如AWS、MicrosoftAzure或GoogleCloud),可以很容易地建立一个可以从远程访问的非常快速的机器学习环境。这就要求数据科学家对云功能有一个基本的了解,例如使用远程服务器而不是自己的计算机,或者使用Linux而不是Windows/Mac。
PySpark正在为parallel(BigData)系统编写Python
- BigData:快速学习IT的第二个方面是使用Hadoop和Spark,这两种工具允许同时在许多计算机上并行处理任务(工作节点)。这要求数据科学家使用不同的方法来开发模型,因为代码必须允许并行执行。
2. NLP, NeuralNetworksandDeepLearning
最近,一位数据科学家仍坚持,NLP和图像识别仅仅是数据科学的专业,并非所有人都必须掌握。
你需要理解深度学习:基于人脑思想的机器学习
但是,图像分类和NLP的用例越来越频繁,甚至在“常规”业务中也是如此。如今,对这种模式有一个基本的了解已经成为行业最低标准。
就算你的工作中没有此类模型的直接应用程序,实际操作的项目也很容易找到,并且可以让你理解图像和文本项目中所需的步骤。
3. Agile
Agile是一种组织工作的方法,已得到开发团队大量使用。越来越多的人涉足数据科学领域,他们最初的技能是纯软件开发,机器学习工程师的角色也应运而生。
Post-its和Agile似乎是并驾齐驱的
越来越多的数据科学家或机器学习工程师被视为开发人员:不断改进现有的代码库中的机器学习元素。
对于这类角色,数据科学家必须了解基于Scrum方法的Agile工作方式。它为不同的人定义了不同的角色,这种角色定义保证了持续改进和顺利实施。
4. Industrialization
在数据科学领域,我们思考项目的方式也在发生变化。数据科学家一如既往地用机器学习来回答商业问题。然而,越来越多数据科学项目为生产系统开发,例如,大型软件中的微服务。
AWS是比较大的云供应商
与此同时,高级模型的CPU和RAM消耗也越来越大,尤其是在使用神经网络和深度学习时。
就数据科学家的工作要求而言,不仅要考虑模型的准确性,还要考虑项目的执行时间或其他工业化方面,这一点变得越来越重要。
和微软一样,谷歌也有云服务
5. Github
Git和Github是面向开发人员的软件,能够管理不同版本的软件。它们跟踪对代码库所做的所有更改,此外,当多个开发人员同时对同一个项目进行更改时,此类软件能够真正增加协作便利性。
GitHub是个不错的选择
随着数据科学家的角色变得越来越重要,能够处理这些开发工具就成了关键。Git正成为一项严肃的工作要求,要适应最好的使用Git,是需要时间的。当你一个人或者和新同事一起,研究Git很容易,但是当你作为一个新人加入一个Git专家团队,你可能会比想象的还要更难适应。
Git是GitHub真正所需的技能
为了保持竞争力,一定要为运用新工具及接受新工作方式而做好准备,加油!