在21世纪,传统教育已经转变为一种选择,而不是人生中的必经阶段。
随着互联网的繁荣和大规模网络公开课(mooc慕课)的兴起,人们可以选择在线学习数据科学,以避免学生的债务负担。
统计数据显示,线上教学使学生在每小时的训练中可以多学习5倍的材料。在线学习的好处是无限的,包括降低成本和灵活的时间安排和环境。
数据科学的民主化
现在是2020年,数据科学比以往更加民主化。这意味着任何个人只要有适当的工具和大量的数据,就可以在几乎没有专业知识的情况下进行数据科学研究。随着数据渗透到整个行业的每一个角落,拥有数据科学家的技能是大势所趋,也因此产生了一支会说数据语言的员工队伍。
考虑到这一点,通过在线课程,对于一个完全的初学者来说,开始研究数据科学是可能的。所需要的只是一个结构合理的学习课程、正确的学习方法、坚持不懈的动力和激情以及辅助训练项目。
如何线上学习数据科学?
最好的慕课 + 正确的学习方法 + 激情 + 项目
所以在这篇文章中,我将介绍最好的慕课,它们是免费的,对于想成为数据科学家的人是非常有价值的。
数据科学韦恩图
Drew Conway
数据科学的多学科交叉性可以通过德鲁 · 康威这张饱受嫌弃的维恩图可视化。通过这个图表,我们可以推断出数据科学领域包括黑客技能、机器学习和多重变量分析。
我已经排除了领域专业知识,因为这取决于你所在的公司,而在线课程无法获得沟通技能等硬技能,你需要与现实生活中的人交谈才能做到这一点(尽管这可能令人畏缩)。
以下20个课程将分为3个部分:
1. 数据科学
2. 黑客技能
- Python
- R语言
- 结构化查询语言
3. 机器学习与人工智能
- 机器学习与人工智能基础
- 深度学习
- 自然语言处理
- 计算机视觉
我没有实地考察不同课程,也没有花几个小时过滤网上的干扰信息,而是编辑了这个列表,其中包含了我发现在机器学习、人工智能、数据科学和编程学习中很有用的课程。
下面,就来看看这个列表吧!
慕课
0. 学会如何学习
这门课程能教你的人生中最重要的技能之一,就是学会如何学习。它会教你一些技巧和方法,确保你能记住你所学到的东西,并帮助你在现实生活中应用它们。因为拥有正确的学习方法是学习任何东西的一个重要先决条件,这就是为什么它被列为序号0,因为它为下面的每一门课程奠定了基础。
数据科学
1.CS109数据科学——哈佛
CS109是介绍调查的五个关键方面的课程:
- 数据纠缠、清理和取样,以获得合适的数据集
- 数据管理能够快速、可靠地访问大数据
- 产生假设和直觉的探索性数据分析
- 基于回归和分类等统计方法的预测
- 通过可视化、故事和可解释的摘要来交流结果。
另外,它是用Python教的!
2. 从数据中学习——加州理工
对于所有数据爱好者来说,深刻理解机器如何从数据中学习以及如何改进处理过程是至关重要的。这是一门介绍机器学习的课程,包括基本理论,算法和应用。
你将学到什么:
- 学习是什么?
- 机器能学习吗?
- 如何做到?
- 如何做好?
3. 大数据概论——加州大学圣地亚哥分校
现在是大数据时代,所有的数据科学爱好者都有义务去了解大数据是什么以及它为什么重要。
你将学到什么:
- 大数据问题、应用程序和系统背后的术语和核心概念。
- 大数据在个人的业务或职业生涯中有多大用处。
- 介绍最常用的框架之一 Hadoop
4.数据科学——约翰·霍普金斯大学(JHU)
简而言之,本课程教你如何提出正确的问题,操作数据集,以及创建可视化来交流结果。
你将学到什么:
- 使用R语言来清理、分析和可视化数据。
- 从数据采集到发布,浏览整个数据科学管道。
- 使用GitHub管理数据科学项目。
- 使用回归模型执行回归分析、最小二乘和推断。
最后,你将拥有一个顶点项目,在这个项目中,通过应用真实世界的数据构建一个实际产品,并有所学习。然后,这个作品将描绘你新获得的数据科学实力。
数学
5. 机器学习专业化的数学——伦敦帝国理工学院
这门课程是机器学习的数学专业,它涵盖了你需要的所有数学知识,帮助更新你在学校可能已经忘记的所有概念和理论。最重要的是,这门课程教你计算机科学的应用,让你对矩阵和回归与机器学习和数据科学的关系有更直观的认识。
这一专业分为三个主要课程:
- 线性代数
- 多元微积分
- 降维主成分分析
在这个专业的最后,你将获得必要的数学知识以继续你的旅程,并采取更高级的课程在机器学习。
6. 线性代数——麻省理工
由独一无二的吉尔伯特·斯特朗教授授课。斯特朗先生是最好的线性代数讲师(个人认为)。因此,如果你正在寻找一个好的线性代数课程,那就是它了。
本课程涵盖矩阵理论和线性代数,强调在其他学科有用的主题。
7. 多元微积分——麻省理工
多元微积分是数据科学中的另一个重要概念。从简单线性回归到支持向量机,以及神经网络,微积分都是必要的。
本课程涵盖多元函数的微分、积分及向量微积分。
8.概率与统计——斯坦福大学
概率和统计是数据科学中所有奇迹发生的基础。如果没有p值分布和二项分布以及所有行话,用数据进行预测将是不可能的。
你将学到什么:
- 探索性数据分析
- 产生数据
- 概率
- 推论(Inference)
遗憾的是,这个课程已经结束了,所以下面是一个复习课程!或者如果你想要卡内基梅隆大学的类似课程,请点击这里。
黑客技能
9. 谷歌Python课程
谷歌为初学者设计的免费课程。本课程主要由笔记、视频和大量的代码练习组成,帮助您开始用Python写代码。我发现它很有用,并向所有希望开始学习Python的人推荐它。
10.应用数据科学与Python——密歇根大学
密歇根大学的5门专业课程,通过Python编程语言向学习者介绍数据科学。本课程使用方便、直观的木星笔记本(JupyterNotebooks)。
这五门课程是:
- 数据科学导论
- 应用绘图、制图和数据表示
- 应用机器学习
- 应用文本挖掘
- 应用社交网络分析
11. R语言统计学——杜克大学
这种专业化帮助您掌握R语言中的分析和可视化,R语言是数据科学领域中顶尖的编程语言之一。
你将学到什么:
- 创建可重复的数据分析报告
- 推论统计的统一性
- 执行频率推论统计和贝叶斯模型,以了解自然现象和作出基于数据的决定
- 在不依赖统计术语的情况下,正确、有效地传达统计结果,批评以数据为基础的要求和评价以数据为基础的决定
- 用R语言包为数据分析争论和可视化数据。
12.数据科学中的结构化查询语言——加州戴维斯大学
结构化查询语言(SQL)是数据科学家检索和处理数据的重要工具,是与数据库系统交互的公认语言。这个课程是为那些想要在领英(职场社交平台)技能部分中添加SQL,并开始使用它来挖掘数据的初学者量身定做的。最重要的是,他们将学会提出正确的问题,并得出好的答案,为你的组织提供有价值的见解。
你将学到什么:
- 创建表格,并能够将数据移入表格
- 常用操作符和如何组合数据
- 案例语句、数据治理和概要分析等概念
- 讨论有关数据的话题,并利用现实世界的编程作业进行练习
- 解释源数据中的结构、含义和关系,并将 SQL 作为一种专业数据来塑造数据,以便进行目标分析
机器学习和人工智能
13.机器学习速成班——谷歌
这个速成课程是一个为有抱负的机器学习实践者准备的自学指南,它以视频讲座、现实世界的案例研究和实践练习为特色。这是在“与谷歌学习”人工智能倡议下的课程之一,鼓励所有人学习人工智能。
14.人工智能要素——赫尔辛基大学
《人工智能要素》是由Reaktor和赫尔辛基大学开发的一系列免费在线课程。它旨在鼓励每个人学习人工智能是什么,人工智能能做什么和不能做什么,以及如何开始创造人工智能途径。这些课程结合了理论和实践练习,可以按自己的步调完成。
15.机器学习——吴恩达
吴恩达的机器学习是互联网上最受欢迎的在线课程之一,它包含方方面面。从最基础的到神经网络和支持向量机,最后加上一个应用项目。这门课程的好处是吴恩达是一位令人难以置信的老师。坏的方面,是用MATLAB教的(我更喜欢 Python)。
16.程序员的实用深度学习课程——Fast.ai
如果你想免费了解深度学习,Fast.ai是一个在线课程。互联网上的每个人都推荐它,对于那些想要学习深度学习的人来说,它无疑是一个有价值的资源。本课程利用jupytorch的笔记本进行学习,并将其作为编写深度学习代码的主要工具。
17. 深度学习——斯坦福大学
深度学习是人工智能中最受欢迎的技能之一。在本课程中,你将学习深度学习的基础,了解如何建立神经网络,并学习如何领导成功的机器学习项目。您将学习卷积网络、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He初始化等等。
18. CS224N 自然语言处理与深度学习——斯坦福大学
自然语言处理(NLP)是信息时代的重要技术之一,是数据科学的重要组成部分。NLP的应用无处不在——在网络搜索、电子邮件、语言翻译、聊天机器人等领域。在本课程中,学生将获得有关自然语言处理的深度学习的前沿研究的全面介绍。
你将学到什么:
- 设计、实现和理解你的神经网络模型。
- PyTorch!
19. CS231n: 用于视觉识别的卷积神经网络——斯坦福大学
计算机视觉已经在我们的社会中无处不在,其应用领域包括搜索、面部识别、无人机,最引人注目的是特斯拉汽车。本课程深入探讨深度学习架构的细节,重点是学习这些任务的端到端模型,特别是图像分类。
你将学到什么:
- 实施、训练和调试他们的神经网络
- 详细了解计算机视觉的前沿研究。
最后的任务包括训练一个数百万参数的卷积神经网络,并将其应用于最大的图像分类数据集(ImageNet)。
荣誉提名
- 可汗学院
- Kaggle课程
- 线性代数、微积分和神经网络的蓝色布朗本质
- 迈向数据科学学习部分
行动计划
在线学习数据科学有时很困难,因为你没有一个结构化的课程来告诉你该做什么。但是,与其这样看待它,不如意识到你有自由去构建一条适合自己的学习道路,并且可以让自己发挥出最好的一面。一个好处是,你可以在你的大脑处于最高效率的时候学习,在它效率较低的时候休息。此外,你可以根据自己的兴趣和热情来决定学习什么。
建议
在网上学习的时候,一些小窍门就是保持做简单的笔记,在一天结束的时候写一些心得,或者在博客上记录你所学到的东西。同样,利用费曼技术向朋友和家人解释你所学到的东西也很重要,尤其是对于像数据科学这样的复杂课题。
此外,学习机器学习算法和神经网络时,在编写代码的同时学习它是至关重要的,这样你就可以看到你在学习什么,并对手头的主题有更好的理解。成为诸如Reddit,Discord等在线社区的一部分也是很好的,这样你就可以提出问题并从专家那里得到很好的答案。
总结一下:
- 记笔记/写博客
- 使用费曼技巧
- 编码和概念(从头开始创建一个神经网络)
- 加入数据科学在线社区提问
最后,引用阿瑟 · w · 奇克林和斯蒂芬 · c · 埃尔曼的一句话
“仅仅坐在课堂上听老师讲课、记忆预先包装好的作业、吐出答案,学生学不了多少东西。他们必须谈论正在学习的东西,写下关于它的反思,将它与过去的经历联系起来,并将它应用到日常生活中。他们必须让学到的东西成为自己的一部分。”
感谢阅读,希望这篇文章对你来说能提供很多思路的。
51CTO学院课程推荐:深度学习工程师实战系列(必备原理+主流框架+项目实战)