Python中文对相关文件的改编和处理

开发 后端
对于Python中文我们可以把文件改变为UTF-8,以及看看他的相关长度,同时也可以看看文章是如何的进行处理以及需要一流的问题等相关问题。

在Python中文中有很多的困难是新手的“克星”,以下文章是我们就这一问题给出的相关的解决方案,希望我们能够从中得到一些好的方法去解决这些问题,以便更好的在计算机的运行中灵活应用。

import sys sys.version'2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]'用记事本创建一个文件ChineseTest.py,默认ANSI:
s = "中文"
print s

测试一下瞧瞧:

  1. E:\Project\Python\Test>python中文Python ChineseTest.py  
  2. File "ChineseTest.py", line 1  
  3. SyntaxError: Non-ASCII character '\xd6' in file 
    ChineseTest.py on line 1, but no encoding declared; 

偷偷地把文件编码改成UTF-8

  1. E:\Project\Python\Test>python 中文ChineseTest.py  
  2. File "ChineseTest.py", line 1  
  3. SyntaxError: Non-ASCII character '\xe4' in file 
    ChineseTest.py on line 1, but no encoding declared;无济于事。  
  4.  

既然它提供了网址,那就看看吧。简单地浏览一下,终于知道如果文件里有非ASCII字符,需要在***行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI,并加上编码声明

  1. coding=gbk 
  2. s = "中文" 
  3. print s再试一下:  
  4. E:\Project\Python\Test>python ChineseTest.py  
  5. 中文正常咯:) 

看一看它的长度

  1. coding=gbk 
  2. s = "中文" 
  3. print len(s)  

s这里是str类型,所以计算的时候一个中文相当于两个英文字符,因此长度为4。
我们这样写

  1. coding=gbk 
  2. s = "中文" 
  3. s1 = u"中文" 
  4. s2 = unicode(s, "gbk") #省略参数将用python中文默认的ASCII来解码  
  5. ss3 = s.decode("gbk") #把str转换成unicode是decode,unicode函数
    作用与之相同  
  6. print len(s1)  
  7. print len(s2)  
  8. print len(s3)  
  9.  

 ()接着来看看文件的处理

建立一个文件test.txt,文件格式用ANSI,内容为:
abc中文
用python来读取

  1. coding=gbk 
  2. print open("Test.txt").read()  
  3. 结果:abc中文  

把文件格式改成UTF-8:
结果:abc涓?枃
显然,这里需要解码:

  1. coding=gbk 
  2. import codecs  
  3. print open("Test.txt").read().decode("utf-8")  
  4. 结果:abc中文  

上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,
运行时报错:
原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。
因此我们在读取时需要自己去掉这些字符,python中文中的codecs module定义了这个常量:

  1. coding=gbk 
  2. import codecs  
  3. data = open("Test.txt").read()  
  4. if data[:3] == codecs.BOM_UTF8:  
  5. datadata = data[3:]  
  6. print data.decode("utf-8")  
  7. 结果:abc中文  

(三)一点遗留问题

在第二部分中,我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢?
***反应是我们的编码声明里用了gbk(# coding=gbk),但真是这样?
修改一下源文件:

  1. coding=utf-8  
  2. s = "中文" 
  3. print unicode(s, "utf-8")  
  4. 运行,报错:  
  5. Traceback (most recent call last):  
  6. File "ChineseTest.py", line 3, in <module> 
  7. s = unicode(s, "utf-8")  
  8. UnicodeDecodeError: &apos;utf8&apos; codec can&apos;t decode
     bytes in position 0-1: invalid data  

简单地说,python中的print直接把字符串传递给操作系统,所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同),所以这里可以使用gbk。
***测试:

  1. coding=utf-8  
  2. s = "中文" 
  3. print unicode(s, "cp936")  
  4. 结果:中文  

【编辑推荐】

  1. Python中文字符具体应用技巧分享
  2. Python连接数据库两种常用方法介绍
  3. Python流程控制关键字基本内容总结
  4. Python流程控制关键字基本内容总结
  5. Python文件路径具体操作方法经典讲解
责任编辑:佚名 来源: 驱动之家
相关推荐

2010-03-05 09:40:08

Python递归

2023-04-07 08:32:31

模块Python

2009-09-02 14:00:34

C#文件处理

2010-03-09 17:23:12

python开源

2009-12-22 15:03:51

ADO.NET使用

2010-04-02 10:30:52

Oracle备份

2023-11-30 16:05:17

2010-03-10 13:59:40

Python异常处理

2010-03-24 16:25:18

Python源代码

2009-06-23 18:11:02

JSF的生命周期Ajax处理

2011-01-18 15:57:00

Postfix

2010-09-10 14:34:02

Squid动态页面

2009-07-17 17:33:22

jQuery

2010-03-01 14:02:26

Python批处理语言

2010-03-23 16:30:47

Python文件复制

2009-07-29 15:58:54

静态文件处理ASP.NET

2009-08-05 18:28:05

C#异常处理

2010-03-11 11:10:14

Python函数式

2010-03-25 10:13:03

Python代码

2010-03-23 12:58:13

Python模拟网页
点赞
收藏

51CTO技术栈公众号