Python抓取网页图片相关代码编写方法

开发 后端
我们今天将会通过对一段代码的解读来为大家详细介绍一下Python抓取网页图片的相关操作方法,希望大家可以从中掌握这一应用技术。

利用Python编程语言进行网页内容的抓取是一个比较常用的编程技术。那么,今天我们将会为大家详细介绍一下有关Python抓取网页图片的操作方法,以方便大家在实际应用中获得一些帮助。

Python抓取网页图片代码示例:

  1. ImgDownloader  
  2. import win32com.client,time,win32inet,win32file,os  
  3. class ImgDownloader:  
  4. def __init__(self,url,dir):  
  5. self.__dir=dir  
  6. self.__ie=win32com.client.Dispatch('InternetExplorer.Application')  
  7. self.__ie.Navigate(url)  
  8. self.__wait__()  
  9. def __wait__(self):  
  10. while self.__ie.Busy:  
  11. time.sleep(0.1)  
  12. def start(self):  
  13. self.__wait__()  
  14. imgs=self.__ie.Document.getElementsByTagName('img')  
  15. for i in range(imgs.length):  
  16. try:  
  17. cachInfo=win32inet.GetUrlCacheEntryInfo(imgs[i].src)  
  18. if cachInfo:  
  19. path=cachInfo['LocalFileName']  
  20. pathpathinfo=path.split('\\')  
  21. pathinfo.reverse()  
  22. filename=('[%d]' % i) + pathinfo[0]  
  23. win32file.CopyFile(path,os.path.join(self.__dir,filename),True)  
  24. except:  
  25. pass  
  26. def close(self):  
  27. self.__ie.Quit()  
  28. if __name__=='__main__':  
  29. d=ImgDownloader('http://image.baidu.com/i?ct=201326592&cl=2&
    lm=-1&tn=baiduimage&pv=&word=boy&z=0','c:\\temp\\')  
  30. d.start()  
  31. d.close() 

原理:在Python使用com 接口运行IE浏览器,然后打开网页,获取网页所有图片的URL,最后利用win32api函数GetUrlCacheEntryInfo找出图片相应的本地缓存文件,复制到指定目录。

以上就是我们为大家介绍的Python抓取网页图片的应用方式。

【编辑推荐】

  1. Python AOP正确实现方法介绍
  2. Python解释器正确调用方式简介
  3. Python开发环境相关搭建方法介绍
  4. windows service运行Python相关操作技巧分享
  5. Python下划线在实际应用中功能体现
责任编辑:曹凯 来源: 博客园
相关推荐

2010-03-03 15:39:50

Python抓取网页内

2010-03-12 11:07:49

Python retu

2019-07-24 16:00:37

Python代码高清图片

2010-01-18 11:03:17

VB.NET网页计数器

2009-12-02 17:22:22

PHP抓取图片

2012-05-17 15:11:23

linux

2009-12-30 14:44:04

Silverlight

2021-11-24 17:22:06

网络抓取网络爬虫数据收集

2009-12-30 14:51:47

Silverlight

2023-03-09 15:55:17

JavaScriptURLCSS

2009-12-01 18:47:19

PHP代码转义

2009-07-31 10:34:41

ASP.NET抓取网页

2009-12-02 15:50:41

PHP抓取网页内容

2009-09-07 14:00:57

C#抓取网页

2010-02-03 13:55:51

Python 代码

2010-01-27 17:53:18

Android显示网络

2010-01-11 14:16:14

VB.NET生成验证码

2020-10-12 08:19:43

Python爬虫网页数据

2009-08-05 16:40:51

Gestalt

2010-01-18 14:35:11

VB.NET读取内存
点赞
收藏

51CTO技术栈公众号