从零开始写Python爬虫,四大工具你值得拥有!

开发 后端
如果你正在学习编程,那么“爬虫”绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备?

如果你正在学习编程,那么“爬虫”绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备?

  • 一颗热爱学习,不屈不挠的心

  • 一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)

  • html相关的一些知识。不需要精通,能懂一点就行

  • Python的基础语法知识 。

[[228760]]

当这些你都具备了,这个时候你需要学习:

0.基本的爬虫工作原理

1.基本的http抓取工具:scrapy

2.Bloom Filter: Bloom Filters by Example

3.如果需要大规模网页抓取,你需要学习分布式爬虫的概念。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

4.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

5.后续处理:网页析取(grangier/python-goose · GitHub),存储(Mongodb)

[[228761]]

python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——

*** F12 开发者工具

  • 看源代码:快速定位元素

  • 分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看

从零开始写Python爬虫,四大工具你值得拥有!

NO.2 抓包工具

  • 推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息

从零开始写Python爬虫,四大工具你值得拥有!

NO.3 XPATH CHECKER (火狐插件)

[[228762]]

非常不错的xpath测试工具,不过也有几个小缺点,:

  1. xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考

  2. 记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。

从零开始写Python爬虫,四大工具你值得拥有!

NO.4 正则表达测试工具

在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考! 

责任编辑:庞桂玉 来源: 今日头条
相关推荐

2021-10-06 10:32:07

微软Windows 11Windows

2018-08-20 08:39:24

编程语言Python网络爬虫

2013-09-24 10:32:31

Android开发者工具

2022-02-16 22:57:57

Mitmproxy抓包工具

2024-07-31 08:14:17

2021-07-05 09:40:57

工具Node开源

2021-04-08 11:20:24

零信任网络安全网络攻击

2021-01-21 09:45:16

Python字符串代码

2018-06-12 13:12:15

编程语言Python爬虫

2020-09-01 07:41:56

macOS工具

2014-12-19 10:55:17

Linux性能监控

2019-01-18 12:39:45

云计算PaaS公有云

2018-04-18 07:01:59

Docker容器虚拟机

2015-11-17 16:11:07

Code Review

2020-07-02 15:32:23

Kubernetes容器架构

2024-12-06 17:02:26

2023-07-03 09:58:00

Python对象编程

2021-09-06 10:22:47

匿名对象编程

2024-03-01 19:53:37

PyBuilderPython开发

2020-12-14 13:32:40

Python进度条参数
点赞
收藏

51CTO技术栈公众号