简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

开发 后端 数据分析
简书上有哪些优质用户?有多少大V粉丝数上万,获赞数上万?哪些文章的阅读数最高?热门专栏里又有哪些是最受用户欢迎的呢?

上次做了一个知乎的用户学校分析,到底知乎用户是不是人均985呢?引起了很大的讨论。

其实,国内的UGC平台,知乎是领军人物,但是又因为它太受欢迎,导致很多其他综合性平台都被忽略了。那么其他平台都有哪些呢?

就拿简书来说吧,这是一个和知乎差不多的综合性平台,但因为没有“人在美国,刚下飞机”的这种梗,于是就被人们慢慢遗忘.....

简书上有哪些优质用户?有多少大V粉丝数上万,获赞数上万?哪些文章的阅读数最高?热门专栏里又有哪些是最受用户欢迎的呢?

一、获取数据

不得不说,数据肯定得是用Python来爬,找到我们想爬取的数据,简洁代码直接走天下~

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

具体的代码就在文末给大家奉上。

由于简书官方对数据有所保护和限制,仅能获取单个用户的900名关注者(粉丝亦然),以及前1900篇左右的文章。在通过2-3层数据爬取后,共获得261277条用户信息,具体数据有:用户名、主页url、是否为签约作者、粉丝数、获赞数、关注数、文章数、总字数等等。

同时,但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章可能都已经获取到了(其实并没有)。

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

二、BI分析

一般来说,用Python取好数之后,就是数据可视化了。

说到数据可视化,可谓是百花齐放,一时之间前端界出现了琳琅满目的第三方库: Highcharts , Echarts , Chart.js , D3.js 等。但是,万变不离其宗:需要不错的代码知识,而且这些产品其实并不是真正的开源。

那对于我们这种不会代码的小白有什么方法呢?

这就是我今天要说的BI了,也叫商业智能。百度搜索BI,就感觉内容铺天满地而来,让人摸不着头脑。其实BI真正做的好的少之又少,但国内和国外还是有一些优秀产品的。

国外代表是Tableau,157亿美金被收购,足以说明它的强大,但是对于国内来说,它不适用:

  • 基于数据查询的工具,实时数据分析功能还很欠缺
  • 价格很贵(土豪绕道),都是代理商所以售后服务非常差
  • 本身没有后端数据仓库,宣称自己是内存BI,实际用起来对硬件要求极高,对于超千万条的数据分析,必须借助于其他ETL工具处理好数据再进行前端分析
  • 无法支持中国式复杂表样

所以我选择了国内的BI产品FineBI,一款企业级的数据分析软件,最重要的是它个人版免费(文末有链接):

 

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

FineBI做的数据可视化

 

  • 自动建模,建模简单,模型灵活性很强
  • 丰富的可视化和前端分析操作,能可视化地进行数据钻取,数据切片和数据旋转等多维分析操作
  • 内置ETL,实时数据分析,同时对大数据能够做到飞速处理

三、数据可视化

上面说了,FineBI虽然是企业级的数据分析软件,但是对于个人来说是免费的。同时,FineBI支持多种形式的数据源,不同连接模式,处理数据完全无压力。

我下好并激活之后,将Python爬出来的数据插入FineBI中,就开始了愉快的分析。

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

1、签约作者分析

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

既然作为自媒体平台,那么里面写字人的目的就是成为签约作者。在这26w+较优质用户里,共有126人的主页上明确地挂有“签约作者”的标签。

这个比例可以说是很少了,也可以从侧面说明简书对于作者的要求有多严格。

单人贡献5篇及以上热门文章的,共有69名作者,也说明写作不容易。

2、用户粉丝情况

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

这是一个类金字塔的分析图,这26w+用户里:粉丝数大于10w+的有5人,均是万中挑一的人物;其他各梯度人数看图即可,不再赘述。值得一提的是粉丝数10-100区间的人数占比最大,为40.38%,而非0粉或1粉的用户,这进一步说明了本次本次爬取的数据较为优质。

3、热门文章24小时分析

11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

4、阅读数、喜欢数与评论数

简书不如知乎?Python爬30W数据,BI可视化分析后,告诉你答案

一篇文章的热门程度,直观地体现在喜欢数和评论数里,从图上来看也确实是这样。

责任编辑:未丽燕 来源: 今日头条
相关推荐

2019-12-19 14:29:51

Python数据分析可视化

2022-06-15 08:25:07

Python天气数据可视化分析

2019-01-16 18:34:37

Python 开发数据

2020-06-05 14:07:20

可视化数据Python

2021-06-04 12:56:22

数据分析岗位

2023-07-26 12:38:42

PyGWalker数据类型

2016-11-25 11:16:22

阿里支付宝数据分析

2021-11-29 13:29:06

Basemap可视化分析

2018-01-25 14:34:18

大数据可视化工具

2020-09-09 12:15:50

大数据互联网可视化

2016-12-22 17:01:11

2021-05-06 09:57:18

Python 开发编程语言

2020-09-27 14:56:33

工具数据可视化技术

2018-11-14 10:15:58

开源技术 数据

2018-01-03 17:22:22

DataHunter数据可视化分析

2017-10-19 21:56:55

数据可视化大数据数据

2021-06-30 23:38:56

Python微信好友

2024-07-31 11:48:07

2016-11-28 15:03:06

Python数据可视化网络分析

2022-09-06 08:01:23

数据采集数据可视化加密
点赞
收藏

51CTO技术栈公众号