用Python将数据写到CSV文件

大数据 后端
我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、CSV 文件、xls 文件等。因为文件具备携带方便、查阅直观。

我们从网上爬取数据,***一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、CSV 文件、xls 文件等。因为文件具备携带方便、查阅直观。

用Python将数据写到CSV文件

Python 作为胶水语言,搞定这些当然不在话下。但在写数据过程中,经常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。

我先说下编码相关的知识。编码方式有很多种:UTF-8, GBK, ASCII 等。

ASCII 码是美国在上个世纪 60 年代制定的一套字符编码。主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用 128 个字符就满足编码要求。

不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完全统计,汉字的数量大约将近 10 万个,日常所使用的汉字有 3000 个。显然,ASCII 编码无法满足需求。所以汉字采用 GBK 编码,使用两个字节表示一个汉字。简体中文的编码方式是 GBK2312。

那 UTF-8 又是什么编码?这要先说 Unicode 了。Unicode 目的是为了统一各种编码。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。但 Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。

因此,如果我们要写数据到文件中,***指定编码形式为 UTF-8。

Python 标准库中,有个名为 csv 的库,专门处理 csv 的读写操作。具体使用实例如下:

  1. import csv 
  2. import codecs 
  3. # codecs 是自然语言编码转换模块 
  4.  
  5. fileName = 'PythonBook.csv' 
  6.  
  7. # 指定编码为 utf-8, 避免写 csv 文件出现中文乱码 
  8. with codecs.open(fileName, 'w''utf-8'as csvfile: 
  9.     # 指定 csv 文件的头部显示项 
  10.     filednames = ['书名''作者'
  11.     writer = csv.DictWriter(csvfile, fieldnames=filednames) 
  12.  
  13.     books = [] 
  14.     book = { 
  15.         'title''笑傲江湖'
  16.         'author''金庸'
  17.     } 
  18.     books.append(book) 
  19.  
  20.     writer.writeheader() 
  21.     for book in books: 
  22.         try: 
  23.             writer.writerow({'书名':book['title'], '作者':book['author']}) 
  24.         except UnicodeEncodeError: 
  25.             print("编码错误, 该数据无法写到文件中, 直接忽略该数据"

这种方式是逐行往 CSV 文件中写数据, 所以效率会比较低。如果想批量将数据写到 CSV 文件中,需要用到 pandas 库。

pandas 是第三方库,所以使用之前需要安装。通过 pip 方式安装是最简单、最方便的。

  1. pip install pandas 

使用 pandas 批量写数据的用法如下:

  1. import pandas as pd 
  2.  
  3. fileName = 'PythonBook.csv' 
  4. number = 1 
  5.  
  6. books = [] 
  7. book = { 
  8.     'title''笑傲江湖'
  9.     'author''金庸'
  10. # 如果 book 条数足够多的话,pandas 会每次往文件中写 50 条数据。 
  11. books.append(book) 
  12.  
  13. data = pd.DataFrame(books) 
  14. # 写入csv文件,'a+'是追加模式 
  15. try: 
  16.     if number == 1: 
  17.         csv_headers = ['书名''作者'
  18.         data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8'
  19.     else
  20.         data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8') 
  21.         number = number + 1 
  22. except UnicodeEncodeError: 
  23.     print("编码错误, 该数据无法写到文件中, 直接忽略该数据"

作者:极客猴,热衷于 Python,目前擅长利用 Python 制作网络爬虫以及 Django 框架。

责任编辑:未丽燕 来源: Python中文社区
相关推荐

2015-10-29 14:28:05

Mysqlcsv导入

2023-10-17 16:24:27

PythonCSV

2023-11-13 18:37:44

2011-07-18 17:16:14

CSVPLSQLDevelope

2024-06-24 13:35:48

2024-04-28 11:39:17

绍csvkit数据分析

2023-12-12 08:31:04

文件操作PythonJSON

2021-07-28 13:29:57

大数据PandasCSV

2022-07-25 11:33:48

Python大文件

2021-11-11 12:45:36

PythonCSVJSON

2019-09-30 09:10:11

Python编程语言数据科学

2021-10-25 13:55:19

PythonmatplotlibPDF

2016-08-18 00:35:39

Pythonwitte数据采集

2010-04-13 10:42:08

Oracle数据库

2009-12-04 16:49:33

PHP批量导出csv文

2009-07-16 15:44:40

导出CSV文本WebWork

2020-11-11 17:00:02

PythonOffice文件PDF

2021-11-06 23:19:39

Python电脑文件

2020-08-20 09:30:26

Python音频文本格式

2020-12-03 18:29:30

KubernetesDocker容器
点赞
收藏

51CTO技术栈公众号