用Python爬取了8262条微博评论,终于知道今天的微博评论为什么太好哭了!

开发 后端
我发现热搜第一条是“今天的微博评论太好哭了“,它有263w+的热度。 于是志斌将这条微博下的评论,给全部爬取了下来,并做成词云图进行展示,看看网友们到底评论了什么,让人非常好哭!

[[408758]]

本文转载自微信公众号「志斌的python笔记」,作者志斌。转载本文请联系志斌的python笔记公众号。

大家好,我是志斌~

在此建党一百周年之际,祝愿我们的党生日快乐,祝愿我们的祖国繁荣昌盛!

刚刚志斌打开微博,发现热搜第一条是“今天的微博评论太好哭了“,它有263w+的热度。 于是志斌将这条微博下的评论,给全部爬取了下来,并做成词云图进行展示,看看网友们到底评论了什么,让人非常好哭!

需要源码的读者,加志斌微信获取哈~

01数据采集

志斌在之前的两篇文章中,详细的介绍了如何获取微博评论,有兴趣的读者可以看看这两篇文章批量爬取不同微博下的评论!爬取微博下全部评论数据~。这里志斌直接展示核心代码了,代码如下:

  1. for page in range(1,10000): 
  2.    if page == 1 : 
  3.        params = ( 
  4.            ('id''4654152979845247'), 
  5.            ('mid''4654152979845247'), 
  6.            ('max_id_type''0'), 
  7.        ) 
  8.    #s = requests.Session() 
  9.    response = requests.get('https://m.weibo.cn/comments/hotflow', headers=headers, params=params) 
  10.    a = response.json()['data']['max_id'
  11.    b = response.json()['data']['max_id_type'
  12.  
  13.    for i in response.json()['data']['data']: 
  14.        pinglunshijian = i['created_at'
  15.        neirong = re.sub(r'<[^>]*>''', i['text']) 
  16.        id = i['user']['id'
  17.        yonghumingcheng = i['user']['screen_name'
  18.        with open(r'71.txt''a', encoding='utf-8'as f: 
  19.            f.write(f'{neirong}\n'
  20.    params = ( 
  21.        ('id''4654152979845247'), 
  22.        ('mid''4654152979845247'), 
  23.        ('max_id', str(a)), 
  24.        ('max_id_type', str(b)), 
  25.         ) 
  26.    print(f'爬取第{page}页数据......'
  27.    time.sleep(random.randint(1,3)) 

02词云图展示

我们一共获取了8262条数据,对这些数据进行词云图绘制,我们发现盛世、祖国、华夏、中国、我们、祝福、骄傲等词较多。看来评论里面都是祝福我们的祖国和感谢这盛世的!

志斌也点开这条热搜看了一下,里面的评论确实很让人泪目,尤其是这句:“我们生在国旗下,长在春风里;人民有信仰,国家有力量;目光所致皆为华夏,五星闪耀皆为信仰。”让志斌内心久久不能平静!

代码如下:

  1. with open("71.txt",encoding='utf-8'as f: 
  2.    job_title_1 = f.read() 
  3. contents_cut_job_title = jieba.cut(job_title_1) 
  4. contents_list_job_title = " ".join(contents_cut_job_title) 
  5. wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False
  6.               background_color="white"
  7.               font_path=r"K:\苏新诗柳楷简.ttf"
  8.               width=400, height=300, random_state=42, 
  9.               mask=imread('xin.jpg', pilmode="RGB"
  10.               ) 
  11. wc.generate(contents_list_job_title) 
  12. wc.to_file("推荐语.png"

03小结

1.  今天上午看建党百年,听习近平总书记的重要讲话,感觉自己何其有幸,生于华夏,生于盛世,不经乱战,作为一名光荣的中共党员,自己以后定当不忘初心,牢记使命,以梦为马,不负韶华!

2. 本文仅作学习参考,不做它用。

 

责任编辑:武晓燕 来源: 志斌的python笔记
相关推荐

2021-07-13 08:09:34

微博推特评论

2020-03-01 17:14:22

数据MySQL数据库

2015-05-11 17:30:22

苹果库克

2020-03-09 08:00:43

娱乐圈肖战评论

2021-11-08 14:38:50

框架Scrapy 爬虫

2021-11-09 09:46:09

ScrapyPython爬虫

2020-04-27 21:19:21

小米MIUI12

2018-06-11 08:20:42

微博评论菊姐

2017-10-10 15:42:56

Python鹿晗关晓彤

2021-12-30 10:28:30

Python 微博评论

2020-12-10 08:20:27

Python微博评论

2017-10-10 13:13:48

2021-06-02 22:18:11

Python关键词微博

2015-04-16 10:35:08

微博微博如何实现

2013-03-26 10:40:21

2011-08-15 13:42:57

2015-09-24 18:08:50

微博架构架构演进架构

2012-04-13 09:51:56

火狐微博助手

2011-12-08 16:31:43

新浪微博开放平台

2011-12-21 16:19:06

网秦手机安全微博保镖
点赞
收藏

51CTO技术栈公众号