我用Python爬了7W知乎用户信息，终于捕获了心仪小姐姐.....-python爬取知乎

[[209456]]

双十一就要来了，在举国一片“买买买”的呼声中，单身汪的咆哮声也愈发凄厉了。

作为一个 Python 程序员，要如何找到小姐姐，避开暴击伤害，在智中取胜呢？于是就有了以下的对话：

so~今天我们的目标是，爬社区的小姐姐~而且，我们又要用到新的姿势(雾)了~scrapy 爬虫框架~

本文主要讲 scrapy 框架的原理和使用，建议至少在理解掌握 Python 爬虫原理后再使用框架(不要问我为什么，我哭给你看)。

[[209457]]

scrapy 原理

在写过几个爬虫程序之后，我们就会知道，利用爬虫获取数据大概的步骤：

请求网页。
获取网页。
匹配信息。
下载数据。
数据清洗。
存入数据库。

scrapy 是一个很有名的爬虫框架，可以很方便的进行网页信息爬取。那么 scrapy 到底是如何工作的呢？之前在网上看了不少 scrapy 入门的教程，大多数入门教程都配有这张图。

也不知道是这张图实在太经典了，还是程序员们都懒得画图，我第一次看到这个图的时候，心情是这样的。

经过了一番深入的理解，大概知道这幅图的意思，让我来举个栗子(是的，我又要举奇怪的栗子了)：

scrapy 原理图之我要吃好吃的

当我们想吃东西的时候，我们会出门，走到街上，寻找一家想吃的店，然后点餐，服务员再通知厨房去做，最后菜到餐桌上，或者被打包带走。这就是爬虫程序在做的事，它要将所有获取数据需要进行的操作，都写好。

而 scrapy 就像一个点餐 APP 一般的存在，在订餐列表(spiders)选取自己目标餐厅里想吃的菜(items)，在收货(pipeline)处写上自己的收货地址(存储方式)。

点餐系统(scrapy engine)会根据订餐情况要求商铺(Internet)的厨房(download)将菜做好，由于会产生多个外卖取货订单(request)，系统会根据派单(schedule)分配外卖小哥从厨房取货(request)和送货(response)。说着说着我都饿了。。。。

什么意思呢？在使用 scrapy 时，我们只需要设置 spiders(想要爬取的内容)，pipeline(数据的清洗，数据的存储方式)，还有一个 middlewares，是各功能间对接时的一些设置，就可以不用操心其他的过程，一切交给 scrapy模块来完成。

创建 scrapy 工程

安装 scrapy 之后，创建一个新项目：

$ scrapy startproject zhihuxjj

我用的是 pycharm 编译器，在 spiders 文件下创建 zhihuxjj.py。

在 zhihuxjj.py 这个文件中，我们要编写我们的爬取规则。

爬取规则制定(spider)

创建好了项目，让我们来看一下我们要吃的店和菜…哦不，要爬的网站和数据。

我选用了知乎作为爬取平台，知乎是没有用户从 1 到 n 的序列 id 的，每个人可以设置自己的个人主页 id，且为唯一。

所以采选了一枚种子用户，爬取他的关注者，也可以关注者和粉丝一起爬，考虑到粉丝中有些三无用户，我仅选择了爬取关注者列表，再通过关注者主页爬取关注者的关注者，如此递归。

对于程序的设计，是这样的。

之后就是种子用户的个人主页，知乎粉丝多的大 V 很多，但是关注多的人就比较难发现了，这里我选择了知乎的黄继新，联合创始人，想必关注了不少优质用户(???)?。

分析一下个人主页可知，个人主页由'https://www.zhihu.com/people/' + 用户 id 组成。

我们要获取的信息是用 callback 回调函数(敲黑板！！划重点！！)的方式设计，这里一共设计了俩个回调函数：用户的关注列表和关注者的个人信息。

使用 chrome 浏览器查看上图的页面可知获取关注列表的 url，以及关注者的用户 id。

将鼠标放在用户名上，如下图：

可以获得个人用户信息的 url，分析 url 可知：

关注者列表链接构成：'https://www.zhihu.com/api/v4/members/' + '用户id' + '/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20' 
个人信息链接构成：'https://www.zhihu.com/api/v4/members/' + '用户id' + '?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'

so，我们在上一节中创建的 zhihuxjj.py 文件中写入以下代码：

import json 
from zhihuxjj.items import ZhihuxjjItem 
from scrapy import Spider,Request 
 
class ZhihuxjjSpider(Spider): 
    name='zhihuxjj' #scrapy用于区别其他spider的名字，具有唯一性。 
    allowed_domains = ["www.zhihu.com"] #爬取范围 
    start_urls = ["https://www.zhihu.com/"] 
    start_user = "jixin" 
    followees_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={offset}&limit=20' #关注列表网址 
    user_url = 'https://www.zhihu.com/api/v4/members/{user}?include=locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,avatar_hue,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics' #个人信息链接 
    def start_requests(self): 
        yield Request(self.followees_url.format(user=self.start_user,offset=0),callback=self.parse_fo) #回调种子用户的关注列表 
        yield Request(self.user_url.format(user=self.start_user,include = self.user_include),callback=self.parse_user) #回调种子用户的个人信息 
 
    def parse_user(self, response): 
        result = json.loads(response.text) 
        print(result) 
        item = ZhihuxjjItem() 
        item['user_name'] = result['name'] 
        item['sex'] = result['gender']  # gender为1是男，0是女，-1是未设置 
        item['user_sign'] = result['headline'] 
        item['user_avatar'] = result['avatar_url_template'].format(size='xl') 
        item['user_url'] = 'https://www.zhihu.com/people/' + result['url_token'] 
        if len(result['locations']): 
            item['user_add'] = result['locations'][0]['name'] 
        else: 
            item['user_add'] = '' 
        yield item 
 
    def parse_fo(self, response): 
        results = json.loads(response.text) 
        for result in results['data']: 
            yield Request(self.user_url.format(user=result['url_token'], include=self.user_include),callback=self.parse_user) 
            yield Request(self.followees_url.format(user=result['url_token'], offset=0),callback=self.parse_fo)  # 对关注者的关注者进行遍历，爬取深度depth+=1 
        if results['paging']['is_end'] is False: #关注列表页是否为尾页 
            next_url = results['paging']['next'].replace('http','https') 
            yield Request(next_url,callback=self.parse_fo) 
        else: 
            pass

这里需要划重点的是 yield 的用法，以及 item['name']，将爬取结果赋值给 item，就是告诉系统，这是我们要选的菜…啊呸…要爬的目标数据。

设置其他信息

在 items.py 文件中，按照 spider 中设置的目标数据 item，添加对应的代码。

import scrapy 
 
class ZhihuxjjItem(scrapy.Item): 
   # define the fields for your item here like: 
   # name = scrapy.Field() 
   user_name = scrapy.Field() 
   sex  = scrapy.Field() 
   user_sign = scrapy.Field() 
   user_url = scrapy.Field() 
   user_avatar = scrapy.Field() 
   user_add = scrapy.Field() 
   pass

在 pipeline.py 中添加存入数据库的代码：

import pymysql 
 
def dbHandle(): 
    conn = pymysql.connect( 
        host='localhost', 
        user='root', 
        passwd='数据库密码', 
        charset='utf8', 
        use_unicode=False 
    ) 
    return conn 
 
class ZhihuxjjPipeline(object): 
    def process_item(self, item, spider): 
        dbObject = dbHandle()  # 写入数据库 
        cursor = dbObject.cursor() 
        sql = "insert into xiaojiejie.zhihu(user_name,sex,user_sign,user_avatar,user_url,user_add) values(%s,%s,%s,%s,%s,%s)" 
        param = (item['user_name'],item['sex'],item['user_sign'],item['user_avatar'],item['user_url'],item['user_add']) 
        try: 
            cursor.execute(sql, param) 
            dbObject.commit() 
        except Exception as e: 
            print(e) 
            dbObject.rollback() 
        return item

因为使用了 pipeline.py，所以我们还需要在 setting.py 文件中，将 ITEM_PIPELINE 注释解除，这里起到连接两个文件的作用。

到这里，基本就都设置好了，程序基本上就可以跑了。

不过因为 scrapy 是遵循robots.txt法则的，所以让我们来观察一下知乎的法则：https://www.zhihu.com/robots.txt

emmmmmmm，看完法则了吗，很好，然后我们在setting.py中，将ROBOTSTXT_OBEY 改成 False。

好像…还忘了点什么，对了，忘记设置 headers 了。

通用的设置 headers 的方法同样是在 setting.py 文件中，将 DEFAULTREQUESTHEADERS 的代码注释状态取消，并设置模拟浏览器头。

知乎是要模拟登录的，如果使用游客方式登录，就需要添加 authorization，至于这个 authorization 是如何获取的，我，就，不，告，诉，你......

DEFAULT_REQUEST_HEADERS = { 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36", 
    'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20' 
}

为了减少服务器压力&防止被封，解除 DOWNLOAD_DELAY 注释状态，这时设置下载延迟，将下载延迟设为 3(robots 法则里要求是 10，但 10 实在太慢了_(:зゝ∠)知乎的程序员小哥哥看不见这句话看不见这句话…