一日一技:如何捅穿Cloud Flare的5秒盾

开发 前端
经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字。

[[399239]]

经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:

  • Checking your browser before accessing xxx.
  • This process is automatic. Your browser will redirect to your requested content shortly.
  • Please allow up to 5 seconds…

即使你把 Headers 带完整,使用代理 IP,也会被它发现。我们来看一个例子。Mountain View Whisman students sent home after children test positive for COVID-19 [1] 这篇文章,使用正常浏览器访问,效果如下图所示:

直接查看原始的网页源代码,可以看到,新闻标题和正文就在源代码里面,说明新闻的标题和正文都是后端渲染的,不是异步加载。如下图所示:

现在,我们使用 requests,带上完整的请求头来访问这个网站,效果如下图所示:

网站识别到了爬虫行为,成功把爬虫请求挡住了。很多同学在这个时候就已经束手无策了。因为这是爬虫的第一次请求就被挡住了,所以网站不是检测的 IP 或者访问频率,所以即使用代理 IP 也无济于事。而现在即使带上了完整的请求头都能被发现,那还有什么办法绕过这个检测呢?

实际上,要绕过这个5秒盾非常简单,只需要使用一个第三方库,叫做cloudscraper。我们可以使用pip来安装:

  1. python3 -m pip install cloudscraper 

安装完成以后,只需要使用3行代码就能绕过 Cloud Flare 的5秒盾:

  1. import cloudscraper 
  2. scraper = cloudscraper.create_scraper() 
  3. resp = scraper.get('目标网站').text 

我们还是以上面的网站为例:

  1. import cloudscraper 
  2. from lxml.html import fromstring 
  3.  
  4. scraper = cloudscraper.create_scraper() 
  5. resp = scraper.get('https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19').text 
  6. selector = fromstring(resp) 
  7. title = selector.xpath('//h1/text()')[0] 
  8. print(title) 

运行效果如下图所示:

破盾成功。

CloudScraper[2] 非常强大,它可以突破 Cloud Flare 免费版各个版本的五秒盾。而且它的接口和 requests 保持一致。原来用 requests 怎么写代码,现在只需要把requests.xxx改成scraper.xxx就可以了。

参考资料

[1]Mountain View Whisman students sent home after children test positive for COVID-19 : https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19

[2]CloudScraper: https://github.com/venomous/cloudscraper

本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。

 

责任编辑:武晓燕 来源: 未闻Code
相关推荐

2021-10-15 21:08:31

PandasExcel对象

2022-06-28 09:31:44

LinuxmacOS系统

2022-03-12 20:38:14

网页Python测试

2021-04-19 23:29:44

MakefilemacOSLinux

2023-10-28 12:14:35

爬虫JavaScriptObject

2024-07-30 08:16:18

Python代码工具

2024-07-30 08:11:16

2021-04-27 22:15:02

Selenium浏览器爬虫

2021-05-08 19:33:51

移除字符零宽

2024-11-11 00:38:13

Mypy静态类型

2022-03-07 09:14:04

Selenium鼠标元素

2021-02-14 22:22:18

格式图片 HTTP

2020-12-11 06:30:00

工具分组DataFrame

2023-10-29 09:16:49

代码安全命令

2021-04-05 14:47:55

Python多线程事件监控

2021-04-12 21:19:01

PythonMakefile项目

2024-02-20 22:13:48

Python项目Java

2024-08-27 22:08:13

2020-05-19 13:55:38

Python加密密码

2021-09-14 21:29:01

项目环境变量
点赞
收藏

51CTO技术栈公众号