本文主要包含以下四大部分:
- 介绍
- Kaggle
- 好处
- 总结
介绍
很多人在刚开始学习数据科学的时候都会不知所措,因为不知道在哪可以了解更多的代码、数据,甚至是最新的想法。但是在一个叫Kaggle的社区,能够满足你的所有需求。
参加机器学习模型的精度竞赛几乎是所有数据科学了解Kaggle的开始,数以万计的数据科学家通过Kaggle提交模型精度的分数,在此基础上了解与他人模型的不同之处,并加以学习和改进自己的数据模型。
通过与来自世界各地的数据科学家们的探讨,不断改变我们的思维方式和想法,提高模型的精度,进而提高我们的排名,让更多人看到我们的成果。
我们可以通过与他们的代码进行比较,来从那些聪明人的头脑中学习新思想。
下面,我将Kaggle的好处以及为什么每个数据科学家都应该使用Kaggle的理由一一列出。还不知道这个神奇的网站的同学记得行动起来啦~
Kaggle
什么是Kaggle?Kaggle是一个分享想法、获得灵感、与其他数据科学家竞争、学习新信息和编码技巧以及查看各种真实世界数据科学应用实例的网站。在这里有很多数据集可以用于诸如视频游戏销售之类的简单数据,也有可用于诸如空气污染数据之类的更为复杂和重要的数据。这些数据是真实的,且被引用过的,所以你可以在项目上训练和测试你的模型,最终帮助到其他有需要的人。
Kaggle还有很多其他有用的特性,比如数据、代码、社区、灵感、竞争和课程。我将在下面详细介绍这些好处,希望你能从Kaggle中找到自己需要的用途。
好处
Kaggle有几个好处,我将在下面列出。这就是每个人都使用这个网站的原因,以及为什么你也应该使用这个网站。
1、数据
在Kaggle上有许多公开的数据集可以使用,你可以看到一个数据集列表,可以搜索任何你要在自己的数据模型中用到的特定数据集,而且大多数数据集都是可以直接引用的CSV文件格式。有一些数据格式已经不太流行但仍然有用,例如JSON格式的数据集、SQLite、archives和BigQuery。下面是三个目前最热门的数据集的例子。
- COVID-19开放研究数据集挑战(https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge)
- 揭开COVID-19的挑战(https://www.kaggle.com/roche-data-science-coalition/uncover)
- ProZorro.乌克兰公共采购数据集(https://www.kaggle.com/oleksastepaniuk/prozorro-public-procurement-dataset)
2、代码
Kaggle上有很多代码。如果你想看到其他Kaggle用户的示例代码,你可以搜索包含代码的Notebooks,很轻松即可找到,这些代码都是经过注释的文本代码,很容易就能看懂。我们可以学习、实践,并看到别人如何执行类似的问题。在该网站中,大多数人都是用Python编写代码,也有其他编程语言,比如R、SQLite和Julia。
代码通常以 Notebook 形式(也称为Jupyter Notebook)的.ipynb 文件中找到。你可以看到展示端到端机器学习模型的示例,其中包括数据摄取和清理、探索性数据分析、特征工程、基本模型创建、最终机器学习模型实现、结果输出和解释。这是大多数数据科学家的标准探索过程,也是一种简单且易于遵循的格式。
- code languages supported on Kaggle: Python, R, SQLite, and Julia
3、社区
与Medium、GitHub、Stack Overflow和LinkedIn一样,Kaggle是一个数据分析师、数据科学家和机器学习工程师可以学习、成长和建立网络的社区。你可以发布你的工作(数据、代码和Notebooks),并且可以共享这些内容来发展自己的社区。成为社区的一分子对我们自身也有好处,所以我强烈建议大家先从Kaggle开始发展自己的社区,并扩展到其他社区。
4、灵感
因为有数据、代码、社区、课程和竞赛,你可能会受到很棒的启发。看到其他人在一个有助于人或公司的竞赛中表现出色是非常鼓舞人心的。如果你被困在下一步要学什么,或者如何执行某个功能,也许可以看看某人如何以特定的方式实现某个模型,比如随机森林,你可以在Kaggle上看到所有这些内容,最终激励你创造更好的工作。
5、竞争
如果你想测试一下自己的水平,看看你在同龄人中的排名,让自己的简历更加漂亮,也能赚点外快,或者最重要的是可以帮助到别人,竞争是最好的方法。Kaggle提供了无数的竞赛,赢得竞赛,你就能得到上面所说的所有好处。上面的截图显示了前三名的比赛和他们各自的奖金。如你所见,这些不仅仅是有趣的比赛,它们也能给你带来更好的收益。
通过参加Kaggle竞赛,你可以看到自己在缺乏数据科学知识的情况下,与拥有近两年数据科学经验的人相比,自己的表现如何。
当成千上万甚至数十万的数据科学家为了达到同一目标而竞争时,这对一个有理想、有追求的数据科学从业者有多大的推动作用?
6、课程
对我来说,最大的好处是发现Kaggle有数据科学课程。你可以选修14门课程,我个人喜欢一些SQL课程,作为数据科学家更需要SQL,而不仅仅是Python。与其他课程网站不同的还有机器学习的可解释性和游戏人工智能和强化学习的介绍。以下是他们网站上的所有课程:https://www.kaggle.com/learn/overview
- Python
- 机器学习入门
- 中级机器学习
- 数据可视化
- Pandas
- 特征工程
- 深度学习
- SQL入门
- 高级SQL
- 地理空间分析
- 微调整
- 机器学习的可解释性
- 自然语言处理
- 游戏AI及强化学习入门
总结
Kaggle为有志于成为数据科学家提供大量的资源。Kaggle的好处包括但不限于:数据、代码、社区、灵感、竞赛和课程。
如果你想在数据分析、数据科学领域有更大的发展,建议你现在就开始了解和使用这个网站吧,这会是一个非常棒的体验,和Github一样!