你的宝藏库已上线:四大可供学习Pandas的Github代码库

开源
如果要针对Pandas进行强化练习,可以参考下列四大可供学习Pandas的Github代码仓库。其中一个代码仓库经Fork次数最多,受众层次广,Pandas新手以及进阶学习者都可使用。

Github的大名想必无人不知,无人不晓。一些新手或许会不敢接触Github,但同为初学者,我非常清楚Github的用途远不止管理项目版本。除了人人都可参与的开源项目以外,Github上还有丰富的学习资源。

[[338516]]

网课固然让人受益良多,但辅以练习才能巩固新知。一些常用网站,例如“Codewars”和“Codekata”,提供每日练习,用户可根据自身需求选择语言并解题。

如果要针对Pandas进行强化练习,可以参考下列四大可供学习Pandas的Github代码仓库。其中一个代码仓库经Fork次数最多,受众层次广,Pandas新手以及进阶学习者都可使用。

Pandas Exercises——多种类数据(4k Forks)

你的宝藏库已上线:四大可供学习Pandas的Github代码库

Pandas Exercises代码仓库截图

该代码仓库由11个部分组成,涵盖了从数据预处理到高级数据可视化等内容。每个文件夹中有多个数据集,包含不同的练习。

用户可下载IPYNB文件,打开Jupyter notebook,亲自动手一试。可将代码输入题目下方的空白cell框格中,并查看“Exercise_with_Solution.ipynb”文件以核对答案。

该代码仓库资源综合性强,共有27个notebook可供使用。即使已经熟悉Pandas,“入门须知(Getting and knowing)”部分也值得一看,或许可从中新学到.describe(include=all) 和 .nunique()等函数。

Pandas Videos——多种类数据/含视频(1.2k Forks)

你的宝藏库已上线:四大可供学习Pandas的Github代码库

Pandas Videos代码仓库截图

该代码仓库内含的Jupyter notebook附有代码,其代码来自于一个介绍Pandas多种不同功能的系列视频。作者使用真实数据集,遍历了解决问题的全过程,将其写进notebook中并发布于网上。

理想状态下,打开Jupyter notebook后便会随之播放视频。视频和代码都浏览完毕后,可将代码仓库中的notebook作为“答题纸”。这些notebook中还附有脚注,有助于厘清特定cell框格的输出结果。

这些视频与相应的notebook综合性极强。对于Pandas相关的疑问,诸如“如何对Pandas中的Series和Dataframe进行排序”等简单小问题,或是“如何用Pandas和sci-kit learn在Kaggle完成提交”等复杂大问题,都能在这一代码仓库中获得解答。

100 Pandas Puzzles(1k Forks)

你的宝藏库已上线:四大可供学习Pandas的Github代码库

100 Pandas Puzzles代码仓库截图

该代码库中含有一个Jupyter notebook文件和一些练习以供下载。用户可将代码填入问题下方的cell框格中,并可与“solutionsnotebook”文件中的相应cell框格进行比对。

notebook由不同部分组成,包括“导入Pandas(Importing Pandas)”、“DataFrame基础知识(DataFrame basics)”和“Series与DatetimeIndex(Series andDatetimeIndex)”等。大多数问题并不需大段代码,在理想情况下仅用寥寥几行即可解决。

该代码仓库中的“扫雷(Minesweeper)”部分很有趣,内容包含:创建DataFrame,使其内含扫雷游戏的必要数据,包括方格坐标值、格内是否含雷及其相邻方格中的含雷数量。“扫雷”中等偏难,对于已完成之前练习的人来说,仍属力所能及之范围。有别于传统的数据分析,该部分考察了在特殊场景中运用DataFrame的能力,颇具趣味性。

作者也指出了题目列表尚不完整,有意完善题目的人可以提出申请,以获取更多练习、做出更正和改进。

Pycon 2019 Tutorial——中等难度(180 Forks)

你的宝藏库已上线:四大可供学习Pandas的Github代码库

Pycon 2019 Tutorial代码仓库截图

该代码仓库中含有一个极长的notebook,其中有作者在自制的“使用Pandas的最佳数据科学实践(Data Science Best Practices with Pandas)”视频中讨论到的代码。该代码仓库不含Pandas的基础知识,因此适合中等水平的Pandas用户使用。

它共有八个主要部分,并不十分遵循“教程”模式,更类似于真实的数据分析项目,从数据检验、数据清洗到创建初步可视化,以帮助解答一些具体的问题,例如“平均来说,哪类职业的工作者发表的TED演讲最为有趣?”等。

对于刚接触Python和Pandas的数据分析项目的新手来说,可以观看整个视频来学习他人如何完成数据清洗、探索和分析等不同步骤,取其精华并活用于自己的项目之中。

学习的途径多种多样,你不妨从中选取符合自己Pandas水平的学习资源,在Github上一试身手。

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2012-02-16 08:34:48

配线架

2015-01-28 09:39:07

2020-03-18 20:09:22

GitHub移动APP手机端

2019-05-14 09:53:31

代码开发工具

2011-03-04 13:17:33

2010-09-03 13:02:04

CSSposition

2021-09-02 10:54:39

Pandas函数数据

2018-07-17 10:58:45

数据库数据库事务隔离级别

2019-12-09 12:39:58

数据库技术机器学习

2015-06-26 09:25:42

2011-09-16 16:01:31

NoSQL

2011-03-21 09:01:49

CSS框架

2010-09-17 13:27:17

虚拟化

2016-03-30 11:51:55

2020-05-07 14:34:14

GitHub新功能开发者

2019-01-23 16:13:02

大数据数据处理数据挖掘

2021-02-20 23:24:33

同态加密HE隐私保护

2021-04-08 11:20:24

零信任网络安全网络攻击

2024-08-02 14:52:00

2010-07-12 13:56:33

UML图形
点赞
收藏

51CTO技术栈公众号