使用Pandas分块处理大文件

大数据
今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。

使用Pandas分块处理大文件

问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。

[[337839]]

解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator

原理就是不一次性把文件数据读入内存中,而是分多次。

1、指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。

  1. table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
  2. for df in table
  3.     对df处理 
  4.     #如df.drop(columns=['page','video_id'],axis=1,inplace=True
  5.     #print(type(df),df.shape)打印看一下信息12345 

我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)

2、指定iterator=True

iterator=True同样返回的是TextFileReader对象

  1. reader = pd.read_table('tmp.sv', sep='\t', iterator=True
  2. df=reader.get_chunk(10000) 
  3. #通过get_chunk(size),返回一个size行的块 
  4. #接着同样可以对df处理 

直接看看pandas文档在这一方面的内容吧。

责任编辑:未丽燕 来源: 今日头条
相关推荐

2022-07-25 11:33:48

Python大文件

2012-06-20 14:16:36

Java内存映射

2022-09-26 00:00:02

PandasExcel文件

2024-05-08 14:05:03

时间序列数据

2023-12-12 11:06:37

PythonPandas数据

2023-09-25 13:19:41

pandasPython

2024-09-26 09:28:06

内存Spring

2015-08-25 15:53:08

LinuxcURL

2024-08-19 09:22:48

2015-10-09 15:58:42

Java读取大文件

2015-08-07 15:35:42

ios短点下载源码

2022-06-13 14:06:33

大文件上传前端

2023-10-17 16:24:27

PythonCSV

2023-03-09 12:04:38

Spring文件校验

2025-01-13 00:26:53

2009-11-16 11:41:19

PHP上传大文件

2022-06-17 11:10:43

PandasPolarsPython

2022-12-30 15:29:35

数据分析工具Pandas

2022-11-17 11:52:35

pandasPySpark大数据

2011-08-29 18:02:29

SQL Server FileStream
点赞
收藏

51CTO技术栈公众号