大数据文摘出品
来源:medium
编译:徐玲、马莉、武帅
疫情在家太无聊,网课自然是打发时间又能自我提升的不二之选。在众多学科中,数据科学又可说是有趣又实用的典范了。
可是,光光coursera上能找到的数据科学课程就要数以百计。我们要如何选择合适的课程?又应该选择怎样的学习顺序呢?
今天,文摘菌就为你带来了十大资源,更为你安排好了学习顺序。
从小白起步级,到大师进阶级,涵盖十分广泛。即便你已有了一定的数据科学基础,也能找到合适的学习资源。
一起来看吧!
Python 3 编程专业课
和Python 2.7说再见!
首先,你需要一门编程语言。密歇根大学的这门专业课是有关学习如何使用Python,并创建自己的内容。
课程链接:https://www.coursera.org/specializations/python-3-programming
你将学习编程基础,如变量、条件、循环;并逐步接触一些中间素材,如关键字变量、列表理解、lambda表达式和类继承。
借助Python应用数据科学,先学习后理解
在充分理解机器学习之前,我们需要先体验一番。
这门《借助Python应用数据科学》(Applied Data Science with Python)介绍了许多你应当了解的现代机器学习方法。无需理解太多,你就可以获得构建自己模型的工具。
课程链接:https://www.coursera.org/specializations/data-science-python
这门进阶的专业课程是面向具有相关基础的学习者。学习者需要具有基本的python或其他语言编程背景,希望通过使用流行的python工具包(如:pandas、matplotlib、scikit-learn、nltk和networkx),应用统计、机器学习、信息可视化、文本分析和社交网络分析技术,从而对他们手头的数据能够有所了解。
机器学习理论与基础
学完上述课程,你就已经入门了。
恭喜!你学到了不少东西,也知道了如何去实现。
但是,你还不完全理解隐含在这些模型背后的数学原理。
你需要理解clf.fit背后的东西。是时候面对现实了。除非你了解模型背后的数学原理,否则没人会拿你当回事。
你不理解它,你就不可能改进它。
因此,我想你重磅推荐吴恩达老师的《机器学习》。它包含了许多机器学习算法背后的数学原理。
课程链接:https://www.coursera.org/learn/machine-learning
我认为这门课是你的“必修课程”,因为是这门课激励我进入这个领域,而且吴恩达老师(Andrew Ng)是一位伟大的老师。另外,这也是我刚转入数据科学领域自学的第一门课。
这门课程什么都有:回归,分类,异常检测,推荐系统,神经网络等等,还有很多很棒的建议。
学习统计推断
“事实是不变的,统计数据则是易变的。”——马克.吐温
《推断统计导论》(Inferential Statistics Intro)由Mine Çetinkaya-Rundel教授,没有比她这门课更简要的了。
课程链接:https://www.coursera.org/learn/inferential-statistics-intro
她是一位好老师,清晰简洁地讲解了统计推断的基础内容。当然了,这也是一门必修课程。
你将会学到假设检验、置信区间、以及数值数据和分类数据的统计推断方法。
学习数据科学的SQL基础知识
SQL是所有数据ETL流程的核心。
虽然我们觉得创建模型和提出不同的假设更有成就感,但也不可轻视数据转换的作用。
而且,由于SQL在数据ETL流程和准备任务中无处不在,因此每个人都应该了解一点SQL,至少是有用的。
SQL也已成为使用Apache Spark等大数据工具的实际标准。加州大学戴维斯分校(UC Davis)的《SQL specialization》课程会讲解有关SQL的基础知识以及如何使用SQL进行分布式计算。
课程链接:https://www.coursera.org/specializations/learn-sql-basics-data-science
课程简介:通过具有数据科学应用程序的四个难度递增的SQL项目,你将学习诸如SQL基础知识,数据整理,SQL分析,AB测试,使用Apache Spark进行分布式计算等主题。
高级机器学习
在更大的舞台上,填鸭式教育一无所用。
你可能不同意这一点,但到目前为止,我们所做的一切都是填鸭式学习。数据是结构化的,数学原理是简单的。但之前的努力并没有白费,它为我们的下一步发展奠定了基础。由Kaggle机器学习的顶尖高手和欧洲核子研究组织(法语为Conseil Européenn pour la Recherche Nucléaire,通常简称为CERN)的科学家们共同开发的《高级机器学习 专项课程》(Advanced Machine Learning specialization),采用另一种学习方法,帮助你学习许多难懂的概念并了解机器学习的前世今生。
课程链接:https://www.coursera.org/specializations/aml
课程简介:该专项课程介绍了深度学习,强化学习,自然语言理解,计算机视觉和贝叶斯方法。Kaggle机器学习的顶尖高手和CERN的科学家们将分享他们在解决现实问题中所获得的宝贵经验,从而更好地帮助你从理论过渡到现实。
深度学习
深度学习是大势所趋。
吴恩达老师带着新课《深度学习 专项课程》(Deep Learning Specialization)回来了,干货满满,待君细品。
课程链接:https://www.coursera.org/specializations/deep-learning
吴恩达老师擅长化繁为简,能够以简洁易懂的方式来解释晦涩复杂的概念。他的方法不同于网上的其他教程,对于理解基础概念大有裨益,因此我希望它能够逐渐流行开来。
课程简介:你将学习深度学习的基础知识,了解如何构建神经网络,学习如何领导成功的机器学习项目。你还会学习卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、Adam优化算法、Dropout原理、批规范化(BN)、Xavier/He初始化等。你将要研究的案例包括医疗保健,自动驾驶,手语阅读,音乐生成,和自然语言处理等领域。
Pytorch,让Python火力全开!
我通常从不提倡学习一种工具,但是,Pytorch真香!了解Pytorch,就意味着你可以阅读许多当今论文中的代码部分,你说它香不香?对于深度学习的研究人员来说,Pytorch已经成为默认的编程语言,更何况它还是开源免费的呢。
你可以通过《利用Pytorch构建深度神经网络》(Deep Neural Networks with Pytorch) 这门课程系统地学习Pytorch。
课程链接:https://www.coursera.org/learn/deep-neural-networks-with-pytorch
课程简介:该课程将从Pytorch的张量和自动微分包讲起。其次,每个部分将涵盖不同的模型,这些模型依赖于诸如线性回归、逻辑回归或softmax回归等基础知识。然后是前馈深度神经网络,包含不同的激活函数,归一化和dropout层。接着将介绍卷积神经网络和迁移学习。最后,还将介绍其他几种深度学习方法。
AWS机器学习入门
构建出色的机器学习系统时需要考虑很多因素。但是通常而言,作为数据科学家,我们只需担心项目的特定部分即可。
但是,我们是否曾经考虑过拥有模型后将如何部署模型?
我见过很多机器学习项目,但其中许多注定要失败,因为它们从一开始就没有一个固定的生产计划。
拥有一个良好的平台并了解该平台如何部署机器学习应用程序,将对现实生产大有帮助。 这门《AWS机器学习入门》(Getting Started with AWS Machine Learning)课程就可以帮你实现这个想法。
课程链接:https://www.coursera.org/learn/aws-machine-learning
本课程将教会你:如何使用带有内置算法和Jupyter Notebook实例的Amazon SageMaker构建、训练和部署模型。
如何使用Amazon AI服务(如Amazon Comprehend,Amazon Rekognition,Amazon Translate等)构建智能应用程序。
数据结构和算法
算法。没错,你需要它们。
算法和数据结构是数据科学不可或缺的一部分。尽管我们大多数数据科学家在学习时都没有学习正确的算法课程,但它们是必不可少的。
许多公司在聘用数据科学家的面试过程中都会询问数据结构和算法。
数据结构与算法需要你付出相当多的时间与精力进行研究,因此切不可轻视,这毕竟是程序员的内功!
我发现学习算法的最佳资源之一是加州大学圣地亚哥分校的《数据结构与算法 专项课程》
课程链接:https://www.coursera.org/specializations/data-structures-algorithms
课程简介:你将学习解决各种计算问题的算法技术,并将以你选择的编程语言实现大约100种算法编码问题。没有其他任何一门在线算法课程可以为你提供如此丰富的编程实践,这些东西你可能会在下次面试中遇到。
学无止境
希望这些资源可以帮助大家在数据科学这条路上走得更远!如果有推荐资源,也欢迎在评论区分享哦。
相关报道:
https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】