Python数据分析Numpy库常用函数详解,提到循环就该想到的库

大数据 数据分析 后端
本文整理了该库的一些常用函数和基础知识,整理不易,希望觉得还不错的朋友可以不吝给个赞。

Python进行数据分析的核心库肯定是Pandas,该库差不多可以解决结构化数据的绝大部分处理需求。在《Python数据分析常用函数及参数详解,可以留着以备不时之需 》一文中也已经对该库的常用函数进行了详细介绍。

但是Pandas是构建在Numpy的基础之上的,它的矢量化运算功能在处理数组和矩阵上具有着非常大的优势。虽然普通的数据分析任务可能很少用到Numpy库,但一旦你具有循环需求或是要处理数值型数据时,你应该首先想到该库。

本文整理了该库的一些常用函数和基础知识,整理不易,希望觉得还不错的朋友可以不吝给个赞。

基础介绍

在介绍函数之前先介绍下Numpy库的基本情况,该库最重要的特点就是其ndarray对象,这个对象可以理解成线性代数里面的数组,每个数组有维度和类型等属性。

维度

直观地判断数组对象有几个维度可通过判断其包含在几层[]中,一层[]即为一维。其中,一维数组可看成是向量,二维数组可看成是有行和列的数据,三维数组可看成是有页,且每页中有行和列的数据,至于更高维度就只能意会了。

类型

数组并不是只能存数值型数据,是也可以存字符串的,但它要求元素类型必须一致,不一致时会按照str > float > int的优先级进行类型转变。例如,在一个整数数组中插入字符串,就会将全部元素转成字符串类型。

另外说一下广播机制。通俗地理解广播机制就是当对不同形状的数组进行算术运算时,广播机制会自动将两个数组补全为相同形状的数组。但需要具备以下前提条件之一:两个数组维度数不等时,二者从末尾开始算起的维度的轴长度相等;两个数组维度数相等时,其中一方的有一个维度的长度为1。关于这一点的理解最好是多加练习。

Numpy常用函数分类

为了更好地理解该库的函数,本文将常用的函数按照下面方式进行分类。 

Python数据分析Numpy库常用函数详解,提到循环就该想到的库

其中基础函数包含对象创建、属性查看、切片索引、形状变换等小类;random模块就是一些常用的随机函数;char模块主要是用来处理字符数组类,也就是数组元素是字符串类型的数据;Matlib是Numpy中的矩阵库,矩阵其实是一种特殊的数组,但它必须是二维的;linglg库是属于线性代数的函数库。

后三个库的函数一般常用于科学计算和图像识别等领域,在数据分析中几乎用不上,因此本文不做介绍,但大家应该知道有这两个库,便于有需求时知道Numpy也具备相应的功能。

基础函数

以下均用arr表示数组,np表示numpy库

(1)对象创建

  1. array(object, dtype =None,order =None, ndmin =0)  
  2. #order为创建方式,C为行方向,F为列方向,默认为C,ndmin指定生成数组的最小维度 
  3. arange(start=0,stop=4,step=,dtype=)  
  4. #生成一维数组,不包含stop 
  5. linspace(start=,stop=,num=,endpoint=True)  
  6. #生成一维等差数据,endpoint决定是否包含stop值,默认包含 
  7. asarray(object,dtype=None,order=None)  
  8. #将对象转换为数组 
  9. zeros(shape,dtype=float,order='C')  
  10. #生成元素全为0的数组 
  11. ones(shape,dtype=float,order='C')  
  12. #生成元素全为1的数组 
  13. eye(N,dtype=float,order='C')  
  14. #生成对角线元素为1,其余元素为0的N阶矩阵 

(2)属性查看

  1. arr.shape  
  2. #数组的形状 
  3. arr.ndim 
  4. #数组的维度 
  5. arr.size 
  6. #数组的长度 
  7. arr.dtype 
  8. #数组数据类型 

(3)切片索引

  1. arr[i]  
  2. #取i行 
  3. arr[[i,j]]  
  4. #取i,j行 
  5. arr[:,i:j]  
  6. #取i到j-1列 
  7. arr[::-1,::-1]  
  8. #元素反转 
  9. np.where(condition,x,y)  
  10. #condition为真的数组中数据赋值x,否则为y 

(4)形状变换

  1. arr.reshape(newshape,order=None) 
  2. #newshape为新维度,元组格式 
  3. arr.flatten(order='C')  
  4. #将数组平铺为一维数组,order表示按行还是按列,默认按行 
  5. arr.T  
  6. #数组转置 
  7. arr.transpose() 
  8. #数组转置 
  9. np.append(arr,values,axis=None)  
  10. #axis控制返回什么类型,默认返回的是拼接后的一维数组 
  11. np.concatenate((arr1,arr2,arr3),axis=0)  
  12. #可拼接多个数组 

(5)统计函数

  1. arr.sum(axis = None)  
  2. #axis为整数或者元组  
  3. arr.mean(axis = None)  
  4. #计算平均值 
  5. arr.std(axis = None) 
  6. #计算标准差  
  7. arr.var(axis = None) 
  8. #计算方差   
  9. np.average(arr,axis =None, weights =None) 
  10. #计算数组的加权平均值,weights中为权重 
  11. np.median(arr,axis=None) 
  12. # 计算数组中元素的中位数  
  13. arr.argmin(axis=None)  
  14. ##返回数组最小值的位置  
  15. arr.argmax(a) 
  16. #返回数组最大值的位置  
  17. np.dot(arr1,arr2)  
  18. #数组的点积运算 

random库

随机函数在生成练习数据等方面是非常有帮助的,可以重点掌握一下。

  1. np.random.rand(d0,d1,d2,……)  
  2. #返回输入维度的随机数,随机数服从[0, 1)区间的均匀分布  
  3. np.random.randn(d0,d1,d2,……) 
  4. #返回输入维度的标准正态分布随机数  
  5. np.random.normal(loc=0.0,scale=1.0,size=None) 
  6. #返回输入维度的正态分布随机数,可控制正态分布的期望和方差 
  7. np.random.randint(low=,high=,size=None,dtype='l')  
  8. #返回属于[low,high)区间的随机整数,size可为元组  
  9. np.random.seed(s)  
  10. #随机数种子,可保证两次随机数生成的结果一样 

 

 

 

责任编辑:未丽燕 来源: 今日头条
相关推荐

2023-11-23 08:58:45

PythonNumPy

2023-11-24 08:47:36

ScipyPython

2017-04-11 09:08:02

数据分析Python

2024-02-20 14:25:39

Python数据分析

2024-01-30 00:36:41

Python机器学习

2024-10-15 10:40:09

2023-02-23 19:21:51

NumPyPython数组

2024-06-06 09:08:14

NumPyPython数据分析

2020-04-27 09:25:16

Python爬虫库数据科学

2020-12-08 10:27:04

数据分析技术IT

2023-02-24 14:40:24

ndarrayPython数据分析

2024-10-25 08:30:55

NumPyPandasMatplotlib

2023-11-21 09:11:31

2023-01-28 10:09:00

Pandas数据分析Python

2024-01-12 10:06:40

Python工具

2022-03-29 10:55:10

Mysql数据库

2022-03-25 09:04:01

Mysql数据库

2023-05-15 12:56:32

运营数据分析

2022-01-20 13:56:15

Python代码数据分析

2018-04-20 12:12:18

数据分析可视化数据挖掘
点赞
收藏

51CTO技术栈公众号