从零开始写Python爬虫，四大工具你值得拥有！-python 爬虫工具

如果你正在学习编程，那么“爬虫”绝对是你不可忽视的。那么，学习python爬虫之前需要哪些准备？

[[228760]]

当这些你都具备了，这个时候你需要学习：

0.基本的爬虫工作原理

1.基本的http抓取工具：scrapy

2.Bloom Filter: Bloom Filters by Example

3.如果需要大规模网页抓取，你需要学习分布式爬虫的概念。简单来说，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

4.rq和Scrapy的结合：darkrho/scrapy-redis · GitHub

5.后续处理：网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

[[228761]]

python的火，很大原因就是各种好用的模块，这些模块是居家旅行爬网站常备的——

*** F12 开发者工具

从零开始写Python爬虫，四大工具你值得拥有！

NO.2 抓包工具

从零开始写Python爬虫，四大工具你值得拥有！

NO.3 XPATH CHECKER (火狐插件）

[[228762]]

非常不错的xpath测试工具，不过也有几个小缺点，：

xpath checker生成的是绝对路径，遇到一些动态生成的图标（常见的有列表翻页按钮等），飘忽不定的绝对路径很有可能造成错误，所以这里建议在真正分析的时候，只是作为参考
记得把如下图xpath框里的“x:”去掉，貌似这个是早期版本xpath的语法，目前已经和一些模块不兼容（比如scrapy），还是删去避免报错。

从零开始写Python爬虫，四大工具你值得拥有！

NO.4 正则表达测试工具

在线正则表达式测试，拿来多练练手，也辅助分析！里面有很多现成的正则表达式可以用，也可以进行参考！