浅析Python解析器解析全过程

开发 后端
下面文章进行详细说明Python解析器,首先讲解一下Python解析器功能和他的常规使用技巧,希望本文能给大家带来相关帮助。

首先先让大家看一下Python解析器的全流程:我们先用编辑器编写好源代码,保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法,那么该文件就以相应的编码方式保存在磁盘中。

注意: 编码声明和源文件的编码不一定是一致的,你完全可以在编码声明中声明编码为UTF-8,但是用GB2312来保存源文件。当然,我们不可能自寻烦恼,故意写错,而且好的IDE也能强制保证两者的一致性,但是,如果我们用记事本或者EditPlus等编辑器来编写代码的话,一不小心就会出现这种问题的。

得到一个.py文件后,我们就可以运行它了,这是,我们就把代码交给Python解析器来完成解析工作。解析器读入文件时,先解析文件中的编码声明,我们假设文件的编码为gb2312,那么先将文件中的内容由gb2312转换成Unicode,然后再把这些Unicode转换为UTF-8格式的字节串。

(注:这里仅指源代码即脚本代码的纯代码转换) 完成这一步骤后,解析器把这些UTF-8字节串分段,解析。如果遇到使用Unicode字符串(注:比如遇到 u'中国a我爱你') ,那么就使用相应的UTF-8字节串创建Unicode字符串。

如果程序中使用的是一般的字符串,那么解析器先将UTF-8字节串通过Unicode转换成相应编码(这里就是gb2312编码)的字节串(注:普通的,非unicode的,即ascii ),并用其创建一般的字符串对象。也就是说,Unicode字符串跟一般字符串在内存中的存放格式是不一样的,前者使用UTF-8的格式,后者使用GB2312格式。

好了,内存中的字符串存放格式我们知道了,下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统,让操作系统相应的程序(譬如cmd窗口)进行显示。这里有两种情况:

1、若字符串是一般的字符串,那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
2、如果字符串是Unicode字符串,那么print在推送之前先进行相应的encode:我们可以显示使用Unicode的encode方法使用合适的编码方式来编码(例子中code 2)

否则Python使用默认的编码方式进行编码,也就是ASCII(例子中的code 3)。当然ASCII是不可能正确编码中文的,因此Python报错。至此,上面的三个问题我们已经可以解析***和第三个了。至于第二个问题,因为Python中有两种字符串,一般字符串和Unicode字符串,两者都有各自的字符处理方法。

对于前者,方法是以字节的方式进行的,而且在GB2312中,每个汉字占用两个字节,因此得到的结果是5;对于后者,也就是 Unicode字符串,所有字符都是统一看待的,因此得到。

虽然上面只提到了控制台程序的中文问题,但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题,同时Python为Unicode提供了极为良好的支持,因此,我建议大家在编写Python的程序时,都统一使用Unicode方式。

保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述,大家可以参考一下。Python中能导致出现中文问题的地方还很多,譬如文件的读写,网络数据的传输等,希望大家能多多交流,共同解决这些问题。

回顾一下使用Python解析器的流程:首先,先用编辑器编写好源代码,保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法,那么该文件就以相应的编码方式保存在磁盘中。注意:编码声明和源文件的编码不一定是一致的,完全可以在编码声明中声明编码为UTF-8,但是用GB2312来保存源文件。

当然,这是自寻烦恼,而且好的IDE也应该保证两者的一致性。但是,如果。用记事本或者EditPlus等编辑器来编写代码的话,可能就会出现这种问题的。得到一个.py文件后,可以运行它。这是把代码交给Python解析器来完成解析工作。解析器读入文件时,先解析文件中的编码声明,假设文件的编码为gb2312。

那么先将文件中的内容由gb2312转换成Unicode,然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后,解析器把这些UTF-8字节串分段,解析。如果遇到使用Unicode字符串,那么就使用相应的UTF-8字节串创建Unicode字符串,如果程序中使用的是一般的字符串。

那么解析器先将UTF-8字节串通过Unicode转换成相应编码(这里就是gb2312编码)的字节串,并用其创建一般的字符串对象。也就是说,Unicode字符串跟一般字符串在内存中的存放格式是不一样的,前者使用UTF-8的格式,后者使用GB2312格式。

【编辑推荐】

  1. 有关Python系统文件进行介绍指导
  2. 如何正确的使用Python函数
  3. 对Python 构建工具进行详细介绍分析
  4. PythonAndroid浅析Python优势所在
  5. 如何使用Python模块解析配置文件?
责任编辑:chenqingxiang 来源: NET130
相关推荐

2009-06-10 16:55:42

cygwin netb安装

2010-06-11 13:15:07

UML软件

2011-06-24 13:08:34

Qt Qt 4.5.3 移植

2010-07-07 09:11:31

Eclipse UML

2009-08-18 16:49:05

C# 操作XML

2010-03-01 17:01:03

Python编程技巧

2011-02-22 10:46:02

Samba配置

2010-02-23 11:35:38

Python 项目测试

2010-02-22 16:51:03

Python 解析器

2011-09-02 10:56:09

netcore路由器设路由器

2009-04-13 12:37:18

2011-09-06 15:38:20

QT安装

2011-01-21 17:51:52

2009-12-08 17:56:16

WCF配置

2011-04-18 15:56:10

软件测试

2017-03-15 15:21:59

数据包漏洞攻击

2009-03-04 10:10:49

PVS服务器桌面虚拟化Xendesktop

2015-07-08 09:57:59

Git服务器分步详解

2010-06-12 10:03:20

Ubuntu Grub

2011-03-11 10:39:02

YUM安装LAMP
点赞
收藏

51CTO技术栈公众号