Kaggle精选:6门精品数据科学课程

大数据
根据Kaggle上的示例和数据,笔者已经在这个网站上练习了大量的机器学习算法及对应的代码。老司机带路,为你筛选一些 Kaggle上可学习的精品数据科学课程。

 本文转载自公众号“读芯术”(ID:AI_Discovery)。

很多网站都提供数据科学在线课程,而笔者最钟爱的就是Kaggle平台,使用它的次数最多,比如查看代码、下载数据和查看其他Jupyter笔记本等。领英也提供课程,但笔者更愿意在已有学习经历的网站上参加课程。

根据Kaggle上的示例和数据,笔者已经在这个网站上练习了大量的机器学习算法及对应的代码。老司机带路,为你筛选一些 Kaggle上可学习的精品数据科学课程。

[[336837]]

Kaggle

Kaggle是可以了解数据科学的网站,你可以在上面查看其他数据科学家们开发的机器学习模型,也可以查看数百行代码,参加机器学习竞赛,从大量有用的数据集中下载资源,最终修炼成更优秀的数据科学家。

其上有许多直击重点的好课,不同于其他常见的数据科学课程,你不必花上数周或数月,可以在几小时或几天内就完成整套课程。

课程

这些课程中有些非常简单,而有些则在学习数据科学和实践技能方面具有独特性和优势,能让你成为与众不同的数据科学家。这些课程由数据科学、机器学习和人工智能的领军者教授或创建。向下拉动课程列表就可以在开始新课程之前看到所需要的必备技能。

其他平台上的许多课程可能会注重特定的函数、列表、数组、查询技术,但是Kaggle的这些课程始终注重它们与数据科学项目的联系,以帮助学习者了解和改进整个数据科学过程。下面列出这14门课程:

  • Python
  • 机器学习基础
  • 中级机器学习
  • 数据可视化
  • Pandas
  • 特征工程
  • 深度学习
  • SQL基础
  • 高级SQL
  • 地理空间分析
  • 微挑战
  • 机器学习的可解释性
  • 自然语言处理
  • 游戏人工智能和强化学习基础

[[336838]]

图源:unsplash

其中有6门我力荐的精品课程:

1. 特征工程

这门课程之所以重要,是因为大多数数据科学家们在职业生涯中都不会收到一个完美的精选数据集,能够直接纳入他们的模型。它在实际应用中是不可或缺的,你总是需要完善特征工程的艺术。本课程重点介绍基线模型、分类编码、特征生成和特征选择的过程。

  • 基线模型:在基线模型部分,学习者会练习加载数据、准备目标列、转换时间戳、准备分类变量、创建训练、验证和测试拆分、训练模型,以及对该模型进行预测和评估。
  • 分类编码:特征工程这部分的优势是假定学习者熟悉独热编码(one-hot encoding)和级别编码(level encoding)。它提出了一些笔者以前不知道的新方法,包括计数编码、目标编码和CatBoost编码。
  • 特征生成:现在将介绍本课程真正精妙的部分,即生成特征。该主题涵盖交互(结合分类变量)以及时间和数字特征(与课程的特定示例相关)。
  • 特征选择:特征太多会导致模型不佳并难以使用。本部分介绍单变量特征选择和L1正则化。虽然笔者知道并曾使用过这些方法,但完全不了解sklearn中的feature_selection库,包括SelectKBest、f_classif和SelectFromModel。

2. 高级SQL

虽然SQL课程没什么特别之处,但笔者非常喜欢看其中一些部分,这些部分使用了我所见过最有用的SQL的视觉效果以及BigQuery的示例。课程涵盖的主要主题是:

  • 连接和联合——合并来自多个表的信息
  • 分析函数——OVER、PARTITION BY、ORDER BY、窗框子句、分析聚合函数、分析导航函数和分析编号函数
  • 嵌套和重复数据——嵌套数据的STRUCT和RECORD、重复数据的ARRAY和UNNEST()
  • 编写高效查询—查询优化器、show_amount_of_data_scanned()和show_time_to_run()、仅选择所需列、读取较少数据、避免N:N连接

3. 地理空间分析

[[336839]]

图源:pexels

这门课是我目前见过的最好的视觉化示例之一。在本课程中,您可以执行许多自定义地图,这在其他程序中通常是无法执行的。本课程包括几个部分:

  • 你的第一张地图——GeoPandas
  • 坐标参考系统——地图投影
  • 交互式地图——热图、分级统计图
  • 处理地理空间数据——空间关系
  • 同质分析——测量距离和相邻点

4. 机器学习的可解释性

该课程概述了SHAP值,这是一个非常有用的库,帮助数据科学家们向自己和其他非技术相关人员解释机器学习的结果。在这个特别的课程中你将学习到:模型洞察的用例、排列重要性、Patrial Plot图、SHAP值、SHAP值的高级用法。

5. 自然语言处理

在笔者的职业生涯中,数据科学中的这一部分用得最多。总是会有重要的、典型的数字数据,但是文本数据几乎一样普遍。可以将文本作为特征添加到多个机器学习模型中。

本课程涵盖NLP入门、文本分类和词向量。尽管这个话题在数据科学领域似乎有些陌生,但数据科学的这一方面多年以来已司空见惯了。例如,谷歌搜索引擎很可能一直在使用自然语言处理来生成搜索建议。

6. 游戏人工智能和强化学习入门

在数据科学的学习经历以及紧跟当前数据科学趋势过程中,笔者从未见过这样的课程。这些课程中最有趣的部分或许是可以学习如何制作电子游戏。本课程重点关注的其他主题是:

  • 玩游戏:游戏代理
  • One-Step前瞻:启发式和博弈树
  • N-Step前瞻:极小极大算法
  • 深度强化学习:神经网络

[[336840]]

图源:unsplash

数据科学课程在网上几乎随处可见,但选项太多有时也会造成困扰,因此笔者非常贴心地为你挑选好啦。课程的选择最终取决于你在寻找什么,如果你想要直接的、非常有益的、真实的数据科学课程应用,Kaggle就是最佳选择。

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2020-08-10 15:08:25

数据科学Kaggle数据集

2019-04-10 09:44:05

2017-03-09 15:51:09

AI地位

2020-03-16 10:34:30

开源技术 趋势

2020-12-16 14:55:44

开发者技能工具

2019-06-26 10:34:05

数据科学工具数据集

2018-12-20 12:09:03

Kaggle数据科学算法

2022-08-10 14:24:56

机器学习解决方案

2023-07-28 14:43:33

语言Pony编码

2018-06-08 16:33:34

大数据游戏吃鸡

2019-01-30 08:05:14

数据科学编程语言Kaggle

2017-03-10 09:32:45

谷歌KaggleAI

2019-06-10 16:08:06

数据科学家数据驱动原则

2022-11-02 13:55:33

数据科学

2018-09-18 10:55:24

人工智能机器学习深度学习

2013-04-15 10:00:09

程序员

2016-02-18 09:54:23

数据中心

2017-11-27 15:16:24

大数据数据科学培训

2018-11-29 13:30:15

数据科学家项目数据

2020-03-19 22:16:05

数据概率分布Python实现
点赞
收藏

51CTO技术栈公众号