豆瓣的电影评分靠谱吗? —— 一点数据分析的视角

企业动态
在我们选择观看电影时,很多人是靠评分去选择,那么豆瓣电影的评分是否可靠?会不会存在一些国内外评价差异比较大的电影?

不知道有没有同学看过白日梦想家这部电影?之前看了这部片子,但觉得并不好看,8.3应该是有些偏高了。看了IMDB,评分也只有7.3 ,并不像豆瓣这样高(下图),似乎国内外评价差别还挺大的。

[[188870]]

而且,在烂番茄上还能看到截然相反的短评,有的人觉得这是导演“令人满意的答卷”,有的却说这部电影"令人失望(disappointing)" (下图)

白日梦想家影评

另一方面,豆瓣上同样8.3分的电影,比如国王的演讲,她,我都觉得挺好看的,IMDB也都达到了8分的水平。于是就想问,豆瓣电影的评分是否可靠?会不会存在一些国内外评价差异比较大的电影?

 

一、数据概况

对Movieinsider 2008-2014国外上映的电影的榜单(北美为主)做了抓取,拿到豆瓣和IMDB的评分, 总共2000+部,包含了很多我们耳熟能详的电影 ,比如蝙蝠侠黑暗骑士、星际穿越、触不可及等等(下图)。不过这次我们不做一般性的电影分析,所以这里就先略过啦

对Movieinsider 2008-2014国外上映的电影的榜单(北美为主)

二、豆瓣和IMDB的整体比较

1. 整体分布比较

做出两者评分的的频数直方图如下,

豆瓣和IMDB的整体比较

可以发现

 

  • 豆瓣和IMDB的整体分布相似,大致呈正态分布,说明使用的数据量基本足够。
  • 豆瓣的高分区偏高,在8-10分的电影比IMDB多许多。

另外,我们还拿到了Metacritic (国外另外一个比较有名的电影评分网站,区别是有专门的电影评论家打分)的评分,

Metactritic的评分

可以发现Metactritic的评分是关于5完全对称的,这是因为他们的分数是经过后期调整、加权的原因,而豆瓣和IMDB就很接近。

 

接下来,选取豆瓣和IMDB评分人数同时大于5000的电影进行比较 ,尽量保证评分具有参考性,不会因为打分的人太少,而使分数不客观。

2. 分数比较

用X-Y散点图比较会较为直观,横坐标是豆瓣评分,纵坐标是IMDB评分,并做出两者的回归线和1:1直线(下图)。这里,回归线代表IMDB和豆瓣评分的大致关系。1:1线以上,为豆瓣评价低于IMDB的;1:1线以下,为豆瓣评价高于IMDB的,

IMDB和豆瓣评分的大致关系

散点图为交互式的,地址:http://lab.wentu.io/movie/wentu_movie_study.htm

 

可以发现

  • 豆瓣和IMDB的评分高度相关。从回归线可以看出,两者评分高度相关,一个评分高,另一个也会高。也就是说,尽管电影评分是非常个人化的事情,每个人对电影的评价会有所差别,但是放到豆瓣和IMDB的大用户量下,评分的大众性很强,国外和国内是很接近的。
  • 存在一个低分区。从图中可以看出,确实有一些电影豆瓣评分偏高,图中已经标出,集中在[4, 6分]区间

然而,不可忽略的是,豆瓣和IMDB的打分机制是不同的 ——

  • IMDB: 10星制
  • 豆瓣: 5星制

当面对10分满分的时候,碰到一部好电影,我们很难直接给出10分的满分,给8分就很高了。而在豆瓣上,面对5分的满分时,给4、5分都是很容易做到的。因此,豆瓣的8.5+有可能和IMDB上的7.5+是对等的,两者的分数并不能像上面这样简单的相比,怎么办?

3. 分位数(排名)比较

为了减小评分机制的影响,我们比较分位数(下图),即将电影按照分数排名,最高为100%,最低为0%,重新绘图如下。阴影部分为排名差值小于20%的区域,落在这个区域内的电影,可以认为豆瓣和IMDB的评价差异较小。

交互式图表地址: http://lab.wentu.io/movie/wentu_movie_study.htm

 

可以发现

  • 两者评分依然高度相关, 回归线的变化在10%以内。也就是说,两者实际很接近,豆瓣的评分还是挺靠谱的。像最开始提到的白日梦想家,排名分别为89%和80%, 差别存在但是并不大。
  • 尽管从回归线来看,两者接近,但有不少电影分布在阴影两侧,存在不少评价差异大的电影。比如美食祈祷恋爱、赛车总动员,里约大冒险等电影(下图),这是我们感兴趣的东西,下面我们具体分析。
  • 美食祈祷恋爱、赛车总动员,里约大冒险等电影

三、深入分析

1. 电影类别的影响

像上面说的,发现美食祈祷恋爱、赛车总动员,里约大冒险的评价差异挺大。那么,有没有可能因为豆瓣上的用户比较文艺、小清新,所以对于爱情、动画类的电影,评价比较高?

交互式图表地址: http://lab.wentu.io/movie/wentu_movie_study.htm

我们将电影按类别分析,如上图。可以发现剧情、动作、爱情等等的差别其实都不大,但很明显,动画类电影的回归线较1:1线整体向右偏移了不少。这里,我们可以计算每个类别的豆瓣和IMDB的平均差距 (下图),可以发现动画类电影平均排名高了10%,豆瓣和IMDB的评价确实有较大差异。

每个类别的豆瓣和IMDB的平均差距

2. 国家的影响

 

我们也可以看一看国产电影和国外电影的差距(下图)。不过,由于在海外上映的中国电影很少,这个时候的回归线已经失去了意义,这里我们只讨论电影个体。可以发现中国电影的分散程度,较英法德日等国家要大得多。

(1) 文化差异可能是一个很大的影响因素

 

可以看到新少林寺, 赤壁IMDB的评分比豆瓣高不少,而让子弹飞, 一代宗师IMDB的评价却比豆瓣要低不少(下图)。这是一个很有意思的现象,毕竟,在国内很少会有人说赤壁比让子弹飞好看,一代宗师也比新少林寺出名多了。

交互式图表地址: http://lab.wentu.io/movie/wentu_movie_study.htm

 

这可能是文化差异的原因。对于外国观众,由于东方文化的异域魅力,所以分数会有加成(比如新少林寺);但同样,由于文化隔阂,一些国外观众不理解的电影(比如让子弹飞、一代宗师),也不会给出特别高的分数。类似的现象,也出现在以前的英雄、十面埋伏等电影中。当然,不单单是外界对国内的电影理解有差异,我们对国外的电影评价也有不同。比如007天幕杀机,我们由于文化背景的不同,也很难给出同样高的评价(下图)。

英雄、十面埋伏等电影

其实这也说明了,IMDB或者豆瓣的评分,也不是绝对客观的。对于不同的文化、受众群体,会有不同的偏好。

(2) 好电影始终会有好分数

说了这么多评价差异大的电影,很容易误以为咱们的电影评价差异都很大。其实像金陵十三钗、叶问、投名状等电影,虽然国内外的评价差别稍大,但在两者的排名中,始终都是好电影(下图)。也就是说,好电影,始终会有好分数。

好电影始终会有好分数

四、评价差异最大的电影是什么?

好电影始终会有好分数

最后,留一个小小的竞猜环节。贾斯汀·比伯:永不言败(Justin Bieber: Never Say Never, 上图)豆瓣的评分是6.3, 请猜一下,这部粉丝电影的IMDB的评分是多少呢? IMDB链接

 

这不由得让我想到了郭敬明同学的小时代,看来国内外网友,在这点上还是挺类似的,嘿嘿

五、结论

(1) 豆瓣和IMDB评分的分布很接近。在弱化产品评分机制的影响后,两者差别很小。

(2) 对于动画类电影,豆瓣评分存在相对IMDB偏高的现象

(3) 对于国内的电影,国内外评价确实有差别,文化差异可能是主要的原因,但总体也是好片较好,差片较差。同时,也不能因为IMDB的评分高低,直接去否定某些电影的价值。

【本文为51CTO专栏作者“数据冰山”的原创稿件,转载请通过作者微信公众号(shujubingshan)获取联系】

戳这里,看该作者更多好文

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2018-03-20 14:40:58

Python爬虫豆瓣影评

2017-01-05 18:39:35

数据分析大数据时代分析报告

2023-11-05 15:09:35

模型AI

2024-01-29 00:33:15

数据分析业务

2024-05-20 13:20:35

数据分析业务程序

2024-01-23 08:00:00

区间评分法电影评分算法

2021-04-19 14:18:17

数据分析互联网运营大数据

2018-01-29 16:29:35

数据开发从业

2012-10-22 11:14:05

SDNOpenFlow网络管理

2023-05-08 00:01:29

数据分析指标标签

2015-12-29 10:10:04

私有云虚拟化公共云

2013-07-19 10:29:54

大数据数据挖掘

2015-06-17 14:44:36

大数据填高考志愿

2020-07-27 15:01:59

大数据人工智能高考志愿

2017-09-27 13:42:42

数据库MySQL断电恢复

2014-02-11 09:25:09

2019-03-21 12:10:56

腾讯管理年轻化

2014-12-30 10:20:24

飞机WiFi

2019-06-28 15:54:49

大数据

2015-09-21 13:39:30

点赞
收藏

51CTO技术栈公众号