利用Python进行数据分析之初识Pandas

大数据 数据分析 后端
Pandas是构建在Python编程语言之上的一个快速、强大、灵活且易于使用的开源数据分析和操作工具。Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集。

Pandas是构建在Python编程语言之上的一个快速、强大、灵活且易于使用的开源数据分析和操作工具。Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集。

在Pandas中有这样两种数据结构:DataFrame、Series,DataFrame就类似Excel里面的Sheet表,而Series就相当于表中的某一列。

安装

在这里我们使用pip进行安装(如果没有可自行查询如何安装pip)安装panda最简单的方法是将其作为Anaconda的一部分安装,Anaconda主要用于数据分析和科学计算。还提供源代码、PyPI、ActivePython、各种Linux发行版或开发版本进行安装的说明。

当然,最为基础的Python环境还是少不了的,如果你是Linux或使用的Mac就不用安装Python了。

 

利用Python进行数据分析之初识Pandas
pip install pandas

Pandas中的数据结构

我们都知道在Excel中是有sheet表,在sheet中每个单元格都是有坐标来表示的,例如:A1、F3等,想要哪些数据只需要定位都响应数据都坐标或某个范围。这里有一点需要强调,Pandas无论是和Exce相比还是和SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理。

 

利用Python进行数据分析之初识Pandas
DataFrame

在Pandas中同样数据表表示方式与Excel基本相同,只不过Excel中的"列",在Pandas中叫做"Series":

 

利用Python进行数据分析之初识Pandas
Series

Pandas初体验

如果想要构建下面这个表格,在Excel中大家再熟悉不过了,在Pandas中该如何构造呢?

 

利用Python进行数据分析之初识Pandas
Excel表格

要想使用Pandas,首先我们需要导入模块(这里使用的ipython,可通过pip install ipython安装)。

 

利用Python进行数据分析之初识Pandas
导入pandas

我们需要手动将数据存储在表中,就要创建一个DataFrame。当使用Python列表和字典时,字典键将作为列头,而每个列表中的值将用作DataFrame的行。

df = pd.DataFrame({ "设备名称": ['服务器', '服务器', '磁盘阵列', '网络设备'], "设备品牌": ['华为', '浪潮', 'Sugon', 'H3C'], "用途": ['高性能计算', '高性能计算', '存储', '接入交换机'], "价格": [80000, 50800, 150000, 8000]})

 

利用Python进行数据分析之初识Pandas
创建DataFrame

命令行直接输入变量名称"df"输出DataFrame所有数据:

 

利用Python进行数据分析之初识Pandas
输出DataFrame

注:第一眼看上去,感觉好乱,有木有!有童鞋说:我想把"设备品牌"放到最前面(在做表的时候,一般都是第一列作为表头出现)。可不可以实现呢?当然可以!只需要在创建时指定"index"就可以了。

 

利用Python进行数据分析之初识Pandas
指定index后,输出DataFrame

DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符、整数、浮点数等)。它类似于Excel表格、SQL数据库表或R语言中的data.frame。

我只想要"设备名称"那一列,怎么拿到呢?

 

利用Python进行数据分析之初识Pandas
获取单个Series

注:当选择DataFrame的单个列时,结果就是一个Series。我们想要选择哪一列,就在方括号[]之间使用列标签。

当然,我们也可以创建一个Series:

 

利用Python进行数据分析之初识Pandas
创建Series

在上面设备信息表中,我想拿到表中价格最贵的,该如何操作?这里就要用到max()方法。

 

利用Python进行数据分析之初识Pandas
最大值

Pandas提供了很多功能,每个功能都有一个可以应用到DataFrame或Series的方法(很多方法,后面我们还会用到很多)。因为方法是函数,所以不要忘记使用括号()哟。

以上内容,简单了解一下Pandas,Pandas功能十分强大,后面我们会由浅至深逐步了解Pandas的强大之处,如果对你有用,记得点赞+关注哟~

责任编辑:未丽燕 来源: 今日头条
相关推荐

2012-03-21 09:31:51

ibmdw

2019-01-15 14:21:13

Python数据分析数据

2024-07-26 21:36:43

2017-09-26 19:02:09

PythonInstagram数据分析

2009-12-23 17:50:38

ADO.NET Fra

2021-12-24 10:45:19

PandasLambda数据分析

2020-02-20 10:45:51

Python数据疾病

2015-09-23 09:24:56

spark数据分析

2020-12-17 09:45:54

数据分析互联网大数据

2017-04-26 14:02:18

大数据数据分析Excel

2017-03-07 10:37:05

非数据数据分析

2022-06-09 11:47:21

工具数据仪连接器

2016-08-21 15:02:47

APP推广数据分析数据统计工具

2024-10-18 09:16:45

2020-12-14 13:24:17

PandasSQL数据集

2012-11-02 16:19:10

2011-06-29 10:13:09

SEO

2019-06-23 18:30:00

Python数据分析编码

2023-05-05 19:29:41

2011-04-14 14:28:53

数据仓库数据分析
点赞
收藏

51CTO技术栈公众号