讲述面向对象的语言——Python语言

开发 后端
在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的,Python语言以一种非常强大又简单的方式实现面向对象编程。

Python语言确实是一种十分精彩又强大的语言,它合理地结合了高性能与使得编写程序简单有趣的特色,看完本文你肯定有不少收获,希望本文能教会你更多东西。

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。

本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据。从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签,Python语言还有一个非常有用的模块HTMLParser。

该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。处理HTML文档的时候,我们常常需要从其中提取出所有的链接。使用HTMLParser模块后,这项任务将变得易如反掌。

首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。定义好新的HTMLParser类之后,需要创建一个实例来返回Python语言。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

为了解析HTML文件的内容并显示包含其中的链接,可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。

需要注意,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的例子。

 import HTMLParser  
 
  import urllib  
 
  import sys  
 
  #定义HTML解析器  
 
  class parseLinks(HTMLParser.HTMLParser):  
 
  def handle_starttag(self, tag, attrs):  
 
  if tag == 'a':  
 
  for name,value in attrs:  
 
  if name == 'href':  
 
  print value  
 
  print self.get_starttag_text()  
 
  #创建HTML解析器的实例  
 
  lParser = parseLinks()  
 
  #打开HTML文件  
 
  lParser.feed(urllib.urlopen( \  
 
  "http://www.python.org/index.html").read())  
 
  lParser.close() 
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.

上述代码的运行结果太长,在此省略,您可以自己运行代码试试。

【编辑推荐】

  1. 漫谈Python 源代码编制技巧
  2. 简单易于操作的Python 工具详解
  3. 有关Python应用领域进行说明介绍
  4. PythonAndroid面向对象的编程——Python应用程序
  5. 如何使用Python模块解析配置文件 ?
责任编辑:chenqingxiang 来源: 中国IT实验室
相关推荐

2010-02-02 13:22:06

Python面向对象

2024-04-02 07:32:58

Go语言接口

2010-03-01 17:40:29

Python面向对象语

2010-01-22 10:26:40

C++语言

2009-07-14 16:51:50

Jython中的对象

2010-08-24 16:00:43

C语言

2011-06-02 09:47:11

C语言重构

2021-05-28 05:34:06

Golang语言编程

2022-10-21 09:01:41

StudentC++类型

2024-01-08 07:02:48

数据设计模式

2010-03-01 18:36:59

Python标准语言

2010-01-13 14:05:55

C++语言

2009-10-13 17:03:55

VB.NET面向对象

2020-04-15 11:07:31

C语言对象思想

2010-03-11 20:33:14

Python编程语言

2009-05-21 09:08:52

接口C++面向对象

2010-01-12 10:11:36

学习C++语言

2020-10-10 11:03:24

面向对象编程语言开发

2022-10-12 08:38:51

C语言classC++

2021-11-08 07:48:48

Go语言对象
点赞
收藏

51CTO技术栈公众号