我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?(内附源码)

开发 后端
《复仇者联盟3:无限战争》于 2018 年 5 月 11 日在中国大陆上映。截止 5 月 16 日,它累计票房达到 15.25 亿。这票房纪录已经超过了漫威系列单部电影的票房纪录。本文通过 Python 制作网络爬虫,爬取豆瓣电影评论,并分析然后制作豆瓣影评的云图。

《复仇者联盟3:***战争》于 2018 年 5 月 11 日在中国大陆上映。截止 5 月 16 日,它累计票房达到 15.25 亿。这票房纪录已经超过了漫威系列单部电影的票房纪录。不得不说,漫威电影已经成为一种文化潮流。

先贴海报欣赏下:

复联 3 作为漫威 10 年一剑的收官之作。漫威确认下了很多功夫, 给我们奉献一部精彩绝伦的电影。自己也利用周末时间去电影院观看。看完之后,个人觉得无论在打斗特效方面还是故事情节,都是给人愉悦的享受。同时,电影还保持以往幽默搞笑的风格,经常能把观众逗得捧腹大笑。如果还没有去观看的朋友,可以去电影院看看,确实值得一看。

本文通过 Python 制作网络爬虫,爬取豆瓣电影评论,并分析然后制作豆瓣影评的云图。

1 分析

先通过影评网页确定爬取的内容。我要爬取的是用户名,是否看过,五星评论值,评论时间,有用数以及评论内容。

 

然后确定每页评论的 url 结构。

第二页 url 地址:

第三页 url 地址:

***发现其中的规律:除了首页,后面的每页 url 地址中只有 start= 的值逐页递增,其他都是不变的。

2 数据爬取

本文爬取数据,采用的主要是 requests 库和 lxml 库中 Xpath。豆瓣网站虽然对网络爬虫算是很友好,但是还是有反爬虫机制。如果你没有设置延迟,一下子发起大量请求,会被封 IP 的。另外,如果没有登录豆瓣,只能访问前 10 页的影片。因此,发起爬取数据的 HTTP 请求要带上自己账号的 cookie。搞到 cookie 也不是难事,可以通过浏览器登录豆瓣,然后在开发者模式中获取。

我想从影评首页开始爬取,爬取入口是:https://movie.douban.com/subject/24773958/comments?status=P,然后依次获取页面中下一页的 url 地址以及需要爬取的内容,接着继续访问下一个页面的地址。 

  1. import jieba  
  2. import requests  
  3. import pandas as pd  
  4. import time  
  5. import random  
  6. from lxml import etree  
  7.  
  8. def start_spider():  
  9.     base_url = 'https://movie.douban.com/subject/24773958/comments'  
  10.     start_url = base_url + '?start=0'   
  11.  
  12.     number = 1  
  13.     html = request_get(start_url)   
  14.  
  15.     while html.status_code == 200:  
  16.         # 获取下一页的 url  
  17.         selector = etree.HTML(html.text)  
  18.         nextpage = selector.xpath("//div[@id='paginator']/a[@class='next']/@href" 
  19.         nextpage = nextpage[0]  
  20.         next_url = base_url + nextpage  
  21.         # 获取评论 
  22.         comments = selector.xpath("//div[@class='comment']" 
  23.         marvelthree = []  
  24.         for each in comments:  
  25.             marvelthree.append(get_comments(each))  
  26.  
  27.         data = pd.DataFrame(marvelthree)  
  28.         # 写入csv文件,'a+'是追加模式  
  29.         try:  
  30.             if number == 1:  
  31.                 csv_headers = ['用户''是否看过''五星评分''评论时间''有用数''评论内容' 
  32.                 data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8' 
  33.             else 
  34.                 data.to_csv('./Marvel3_yingpping.csv', header=Falseindex=False, mode='a+', encoding='utf-8' 
  35.         except UnicodeEncodeError:  
  36.             print("编码错误, 该数据无法写到文件中, 直接忽略该数据" 
  37.  
  38.         data = []  
  39.         html = request_get(next_url) 

我在请求头中增加随机变化的 User-agent, 增加 cookie。***增加请求的随机等待时间,防止请求过猛被封 IP。 

  1. def request_get(url):  
  2.     '' 
  3.     使用 Session 能够跨请求保持某些参数。  
  4.     它也会在同一个 Session 实例发出的所有请求之间保持 cookie  
  5.     '' 
  6.     timeout = 3  
  7.     UserAgent_List = [  
  8.         "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36" 
  9.         "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36" 
  10.         "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36" 
  11.         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36" 
  12.         "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36" 
  13.         "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36" 
  14.         "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36" 
  15.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36" 
  16.         "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36" 
  17.         "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36" 
  18.         "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36" 
  19.         "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36" 
  20.         "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36" 
  21.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36" 
  22.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36" 
  23.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36" 
  24.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36" 
  25.         "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36" 
  26.         "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36" 
  27.     ]  
  28.  
  29.     header = {  
  30.         'User-agent': random.choice(UserAgent_List),  
  31.         'Host''movie.douban.com' 
  32.         'Referer''https://movie.douban.com/subject/24773958/?from=showing' 
  33.     }  
  34.  
  35.     session = requests.Session()  
  36.  
  37.     cookie = {  
  38.         'cookie'"你的 cookie 值" 
  39.     }  
  40.  
  41.     time.sleep(random.randint(5, 15))    
  42.     response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)  
  43.     if response.status_code != 200:  
  44.         print(response.status_code)  
  45.     return response 

***一步就是数据获取:

 

  1. def get_comments(eachComment):  
  2.     commentlist = []  
  3.     user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0]  # 用户  
  4.     watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0]  # 是否看过  
  5.     rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title")  # 五星评分  
  6.     if len(rating) > 0:  
  7.         rating = rating[0]  
  8.  
  9.     comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title")  # 评论时间  
  10.     if len(comment_time) > 0:  
  11.         comment_time = comment_time[0]  
  12.     else 
  13.         # 有些评论是没有五星评分, 需赋空值  
  14.         comment_time = rating  
  15.         rating = ''  
  16.  
  17.     votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0]  # "有用"数  
  18.     content = eachComment.xpath("./p/text()")[0]  # 评论内容  
  19.  
  20.  
  21.     commentlist.append(user 
  22.     commentlist.append(watched)  
  23.     commentlist.append(rating)  
  24.     commentlist.append(comment_time)  
  25.     commentlist.append(votes)  
  26.     commentlist.append(content.strip())  
  27.     # print(list)  
  28.     return commentlist  

3 制作云图

因为爬取出来评论数据都是一大串字符串,所以需要对每个句子进行分词,然后统计每个词语出现的评论。我采用 jieba 库来进行分词,制作云图,我则是将分词后的数据丢给网站 worditout 处理。 

  1. def split_word():  
  2.     with codecs.open('Marvel3_yingpping.csv''r''utf-8'as csvfile:  
  3.         reader = csv.reader(csvfile)  
  4.         content_list = []  
  5.         for row in reader:  
  6.             try:  
  7.                 content_list.append(row[5])  
  8.             except IndexError:  
  9.                 pass  
  10.  
  11.         content = ''.join(content_list)  
  12.  
  13.         seg_list = jieba.cut(content, cut_all=False 
  14.         result = '\n'.join(seg_list)  
  15.         print(result) 

***制作出来的云图效果是:

"灭霸"词语出现频率***,其实这一点不意外。因为复联 3 整部电影的故事情节大概是,灭霸在宇宙各个星球上收集 6 颗***宝石,然后每个超级英雄为了防止灭霸毁灭整个宇宙,组队来阻止灭霸。 

 

责任编辑:庞桂玉 来源: Python中文社区
相关推荐

2015-05-27 17:26:08

2012-05-16 10:33:39

2018-07-25 13:47:51

彭于晏邪不压正Python

2019-05-16 10:34:17

浪潮商用机器PowerIBM

2019-04-28 06:27:25

复仇者联盟数据分析可视化

2023-12-06 13:45:00

AI模型

2017-08-21 10:05:57

Python影评 爬虫

2022-04-29 08:00:36

web3区块链比特币

2019-04-12 09:24:46

Spring Clou服务注册

2018-11-28 13:16:39

火锅数据爬虫

2018-12-20 11:50:46

Python房租分析

2024-04-09 09:08:09

Kafka消息架构

2019-04-24 09:25:51

安全事故复联

2023-12-08 07:38:13

GptsOpenAIChatGPT

2021-08-16 17:36:16

黑客数据泄露网络安全

2013-08-13 15:21:00

华为移动开发者联盟移动团队移动互联网市场

2012-07-03 16:56:12

Hadoop

2015-10-21 09:04:57

风投创业硅谷

2017-09-17 10:05:20

Python景点国庆

2020-12-30 09:18:46

JVM内部信息
点赞
收藏

51CTO技术栈公众号