Python微博移动端爬虫实例(附代码)

开发 后端
本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3/Windows-10-64位/微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在***条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

 

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。 

责任编辑:庞桂玉 来源: Python中文社区
相关推荐

2018-01-11 10:20:04

Python爬虫豆瓣音乐

2021-11-09 09:46:09

ScrapyPython爬虫

2021-11-08 14:38:50

框架Scrapy 爬虫

2013-05-27 09:52:35

Android开发移动开发移动应用

2021-06-02 22:18:11

Python关键词微博

2013-07-16 15:21:53

微微博新浪微博AndroidAndroid开发学习

2017-09-21 10:02:02

Java网页爬虫Httpclient

2011-07-26 09:58:24

2013-01-21 13:12:03

微信移动电子商务阿里

2015-01-14 13:59:50

腾讯微博客户端源码下载

2018-11-27 11:58:34

Python人脸识别编程语言

2023-10-30 09:38:12

GUI程序接口方法

2022-09-28 08:05:37

PythonGUI程序

2012-07-06 13:29:50

北京移动

2021-02-19 23:55:15

PythonPythonic数据

2021-08-24 13:05:25

TypeScript代码前端

2018-06-11 08:20:42

微博评论菊姐

2012-07-04 09:59:10

金山WPSWPS移动版

2011-12-08 16:31:43

新浪微博开放平台

2011-12-21 16:19:06

网秦手机安全微博保镖
点赞
收藏

51CTO技术栈公众号