用 Pandas 处理结构不佳的 Excel 文件

数据库 其他数据库
本文将讨论如何使用pandas和openpyxl来读取这些类型的Excel文件,并干净地将数据转换为适合进一步分析的DataFrame。

​简介

用pandas很容易读取Excel文件并将数据转换为DataFrame。然而现实世界中的Excel文件往往构造不佳,在那些数据散落在工作表中的情况下,你可能需要定制读取数据的方式。本文将讨论如何使用pandas和openpyxl来读取这些类型的Excel文件,并干净地将数据转换为适合进一步分析的DataFrame。

问题

pandas 的 read_excel函数在读取Excel工作表方面做得很好。然而,在数据不是从A1单元格开始的连续表格的情况下,结果可能不是你所期望的那样。

比如当你尝试使用 read_excel(src_file)读取下面这个电子表格样本。

图片

你会得到一些下面这样的东西。

图片

这些结果包括很多 Unnamed的列、行内的标题标签以及一些我们不需要的额外列。

Pandas解决方案

对于这个数据集,最简单的解决方案是使用 read_excel()​的 header​和 usecols​参数。尤其是 usecols参数,对于控制你想包括的列非常有用。

如果你想继续学习这些例子,文件在github上。

https://github.com/chris1610/pbpython/blob/master/data/shipping_tables.xlsx

下面是一个替代方法,只读取我们需要的数据。

import pandas as pd

from pathlib importPath

src_file = Path.cwd() / 'shipping_tables.xlsx'



df = pd.read_excel(src_file, header=1, usecols='B:F')

产生的DataFrame只包含我们需要的数据。在这个例子中,我们特意排除了备注栏和日期栏。

图片

usecols​可以接受Excel范围,如 B:F​,并只读入这些列。header​参数期望一个定义标题列的单一整数。这个值是以0为索引的,所以我们传入 1,尽管这是Excel的第2行。

在某些情况下,我们可能希望将列定义为一个数字列表。在这个例子中,我们可以定义为整数的列表。

df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])

如果你对一个大的数据集有某种想要遵循的数字模式(即每3列或只有偶数列),这种方法可能会很有用。

pandas的 usecols也可以接受一个列名的列表。这段代码将创建一个等效的DataFrame。

# Define a more complex function:

def column_check(x):

if'unnamed'in x.lower():

returnFalse

if'priority'in x.lower():

returnFalse

if'order'in x.lower():

returnTrue

returnTrue



df = pd.read_excel(src_file, header=1, usecols=column_check)

需要记住的关键概念是,该函数将按名称解析每一列,必须为每一列返回 True​或 False​。那些被评估为 True的列将被包括在内。

另一种使用可调用函数的方法是包含一个 lambda表达式。这里有一个例子,我们想只包括一个定义好的列的列表。我们通过将名称转换为小写字母来进行规范化,以便于比较。

cols_to_use = ['item_type', 'order id', 'order date', 'state', 'priority']

df = pd.read_excel(src_file,

header=1,

usecols=lambda x: x.lower() in cols_to_use)

可调用函数给了我们很大的灵活性来处理现实世界中混乱的Excel文件。

区间和表格

在某些情况下,数据在Excel中可以更加模糊不清。在这个例子中,我们有一个叫做 ship_cost的表,我们想读取它。如果你必须处理这样的文件,用我们到目前为止讨论过的pandas选项来读入可能是个挑战。

图片

在这种情况下,我们可以直接使用openpyxl来解析文件并将数据转换成pandas DataFrame。事实上,数据是在一个Excel表格中,可以使这个过程更容易一些。

下面是如何使用openpyxl来读取Excel文件。

from openpyxl import load_workbook

import pandas as pd

from pathlib importPath

src_file = src_file = Path.cwd() / 'shipping_tables.xlsx'



wb = load_workbook(filename = src_file)

这将加载整个工作簿。如果我们想看到所有的工作表。

wb.sheetnames
['sales', 'shipping_rates']

要访问具体的工作表。

sheet = wb['shipping_rates']

要查看所有命名的表的列表。

sheet.tables.keys()
dict_keys(['ship_cost'])

这个键对应于我们在Excel中分配给表的名称。现在我们访问该表,以获得相当于Excel的范围。

lookup_table = sheet.tables['ship_cost']

lookup_table.ref
'C8:E16'

这就成功了。我们现在知道了我们要加载的数据范围。最后一步是将这个范围转换为pandas DataFrame。下面是一个简短的代码片段,用来循环浏览每一行并转换为一个DataFrame。

# Access the data in the table range

data = sheet[lookup_table.ref]

rows_list = []



# Loop through each row and get the values in the cells

for row in data:

# Get a list of all columns in each row

cols = []

for col in row:

cols.append(col.value)

rows_list.append(cols)



# Create a pandas dataframe from the rows_list.

# The first row is the column names

df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])

下面是产生的数据框架。

图片

现在我们有了干净的表格,可以用于进一步的计算。

总结

在一个理想的条件下,我们使用的数据应该拥有一个简单一致的格式。在本文的例子中,我们可以很容易地删除行和列,使之更符合格式要求。然而,有些时候,这样做是不可行的,也是不可取的。好消息是,pandas和openpyxl为我们提供了读取Excel数据所需的所有工具。​

责任编辑:武晓燕 来源: Python中文社区
相关推荐

2020-10-29 06:02:44

PythonPandasExcel

2020-08-14 11:01:32

数据Pandas文件

2021-01-13 11:13:46

ExcelPandas代码

2023-08-30 09:16:38

PandasPython

2018-02-08 09:37:27

Pandas大数据Spark

2022-08-25 17:47:21

PythonExcel

2021-02-06 14:55:05

大数据pandas数据分析

2012-02-01 10:50:49

JavaWeb报表

2023-12-05 08:47:30

Pandas数据处理

2022-07-25 11:33:48

Python大文件

2022-12-30 15:29:35

数据分析工具Pandas

2023-09-20 10:04:04

Python工具

2023-12-12 11:06:37

PythonPandas数据

2022-02-22 09:25:11

PandasETL数据分析

2017-02-28 10:54:40

Pandas

2024-05-13 11:43:39

Python数据分析CSV

2022-07-14 07:12:09

PythonPandasVBA

2022-05-24 09:52:37

Spark SQL大数据处理Hive

2023-12-18 10:36:46

数据处理PandasPython

2023-03-24 16:41:36

Pandas技巧数据处理
点赞
收藏

51CTO技术栈公众号