Python处理大数据的2个神奇操作

开发 后端 大数据
Python有个处理大数据的库,结合xlrd库,在做一些大数据的处理统计工作的时候很好用,譬如做性能测试,你的结果数据如何统计,python有个库pandas,这个就很擅长做这个工作,这里就讲2个pandas的骚操作。

Python有个处理大数据的库,结合xlrd库,在做一些大数据的处理统计工作的时候很好用,譬如做性能测试,你的结果数据如何统计,python有个库pandas,这个就很擅长做这个工作,这里就讲2个pandas的骚操作。 pandas中groupby、Grouper和agg函数的使用。这2个函数作用类似,都是对数据集中的一类属性进行聚合操作,比如统计一个用户在每个月内的全部花销,统计某个属性的最大、最小、累和、平均等数值。 

Python处理大数据的2个神奇操作

统计“ext price”这个属性在每个月的累和(sum)值

  1. import pandas as pd 
  2. import collections 
  3. df = pd.read_excel("D:/Download/chrome/sample-salesv3.xlsx"
  4. #print (df.head(10)) 
  5. df["date"] = pd.to_datetime(df["date"]) 
  6. # print (df.head(10)) 
  7. df1 = df.set_index("date").resample("M")['ext price'].sum() 
  8. # print(df1.head())  
Python处理大数据的2个神奇操作

统计每个用户每个月"ext price"这个属性的sum值,利用Grouper

  1. df2 = df.groupby(["name",pd.Grouper(key = "date",freq="M")])["ext price"
  2. print(df2.head(10))  
Python处理大数据的2个神奇操作

Agg

agg函数,它提供基于列的聚合操作。而groupby可以看做是基于行,或者说index的聚合操作。

从实现上看,groupby返回的是一个DataFrameGroupBy结构,这个结构必须调用聚合函数(如sum)之后,才会得到结构为Series的数据结果。

而agg是DataFrame的直接方法,返回的也是一个DataFrame。当然,很多功能用sum、mean等等也可以实现。但是agg更加简洁, 而且传给它的函数可以是字符串,也可以自定义,参数是column对应的子DataFrame

获取"ext price","quantity","unit price"3列的各自的累计值和均值

  1. df3 = df[["ext price","quantity","unit price"]].agg(["sum","mean"]) 
  2. print(df3.head())  
Python处理大数据的2个神奇操作

可以针对不同的列使用不同的聚合函数

  1. df4 = df.agg({"ext price":["sum","mean"],"quantity":["sum","mean"],"unit price":["mean"]}) 
  2. print(df4.head())  
Python处理大数据的2个神奇操作

也可以自定义函数,比如,统计sku中,购买次数最多的产品编号,通过lambda表达式来做。

  1. #统计sku中,购买次数最多的产品编号 
  2. get_max = lambda x:x.value_counts(dropna=False).index[0] 
  3. get_max.__name__ = "most frequent" 
  4. df5 = df.agg({"ext price":["sum","mean"], 
  5.  "quantity":["sum","mean"], 
  6.  "unit price":["mean"], 
  7.  "sku":[get_max] 
  8.  }) 
  9. print(df5)  
Python处理大数据的2个神奇操作

如果希望输出的列按照某个顺序排列,可以使用collections的OrderedDict

  1. agg_dict = { 
  2.  "ext price":["sum","mean"], 
  3.  "quantity":["sum","mean"], 
  4.  "unit price":["mean"], 
  5.  "sku":[get_max] 
  6. #按照列名的长度排序。OrderedDict的顺序是跟插入顺序一致的 
  7. df6 = df.agg(collections.OrderedDict(sorted(agg_dict.items(),key=lambda x:len(x[0])))) 
  8. print(df6)  
Python处理大数据的2个神奇操作

源数据的链接:https://github.com/chris1610/pbpython/tree/master/data

 

责任编辑:未丽燕 来源: 今日头条
相关推荐

2015-09-10 14:40:32

大数据神奇

2020-06-08 07:52:31

Python开发工具

2013-02-26 09:21:05

大数据微软奥斯卡

2017-11-14 05:04:01

大数据编程语言数据分析

2013-06-06 10:49:51

2017-07-26 17:45:05

2024-11-14 12:00:00

Python开源大数据

2022-08-25 17:47:21

PythonExcel

2019-02-21 15:34:08

数据分析师大数据可视化

2016-10-17 13:56:48

大数据大数据分析

2024-04-01 05:00:00

GUIpythonDearPyGui

2020-07-27 05:40:13

Python数据分析开发

2017-07-21 14:22:17

大数据大数据平台数据处理

2010-04-13 15:35:12

Oracle处理损坏数

2020-06-23 07:50:13

Python开发技术

2010-04-08 13:55:18

Oracle数据处理

2023-11-29 13:56:00

数据技巧

2018-03-08 12:17:38

大数据HPCHadoop

2022-12-30 15:29:35

数据分析工具Pandas

2015-08-13 13:27:58

点赞
收藏

51CTO技术栈公众号