数据分析师

您的位置:首页 > CDA原创 > 数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是..

数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是..

收藏

来源: CDA数据分析师 | 发布时间:2017-04-20 09:39:24

前言

去影院看电影前我们都习惯上网看看影片的评分,从而选出想看的电影。
 
各种各样的电影评分网站都提供他们对电影的评分,那么他们的评分依据是什么?哪个电影评分网站给出的评分最靠谱呢?
 
一位数据科学家就从数据的角度分析了美国四个热门电影评分网站, IMDB ,烂番茄, Metacritic ,和 Fandango 。从而得出了评分最值得推荐的电影评分网站。

评判的标准

本文的推荐需基于一定的标准,从而来判断哪个平台的电影评分是最值得参考的。在这种情况下,我将使用一个单一的标准:正态分布(也称为高斯分布)。

评判最佳的电影评分网站主要是根据其评分是否最接近正态分布。指的是给出一组存在一定间隔的值,其中大部分值位于中间,而少数值处于极端或者特别高或者特别低。一般来说,正态分布如下图所示:


电影评分的正态分布意味着评分中存在,少数低评分电影,大多数评分中等,少数高评分电影。最接近理想的正态分布也就是最佳的电影评分平台。
 
事实也是如此。就我自身而言,最为一名电影爱好者,我所看的几百部电影的电影可大致分为:
 
极少数值得反复观看的好片;
一些看了感觉浪费时间的烂片;
以及大多数感觉一般,看完就记不清剧情的影片。
 
我相信大多数人——无论是影评家,影迷,还是普通电影观众,都有类似的经历。
 
如果电影评分确实反映了电影的质量,那么我们应该看到同样的模式——大多数一般电影,少数烂片,少数好片。


每个柱状条对应一个评分。柱状条越高,处于这个评分区间的电影越多。

进而我们可以得出,一部电影的评分如下。



获得高分和地分的概率都较低,但很大概率获得一般评分。请注意“ likely ”与“ very likely ”之间的区别。

IMDB,烂番茄,Fandango 还是 Metacritic?

有了合适的标准,现在让我们具体来看看数据。

有很多网站都提供自己的电影评分。基于知名度,我只选择了以下四个网站,分别是 IMDB , Fandango ,烂番茄和 Metacritic 。

对于最后两个,我只专注于他们的标志性评分类型 - 即 tomatometer 和 metascore  - 主要因为其评分对每个网站上的用户都是可见的(指那能够更快的找到这些评分)。其评分也在另外两个网站上分享( metascore 在 IMDB 上分享,而 tomatometer 可在 Fandango 上分享)。
 
我收集了些 2016 年和 2017 年参与评分人数最多和影评最多的电影。这214部电影评分清理后的数据集在 Github 可以下载。

我知道使用小样本是有风险的,但至少能通过获取最新的评分来补偿的。

在绘制和解释分布之前,让我明确下我之前使用的定性值:从 0 到 10 分的基准上,烂片评分在 0 到 3 之间,一般影片在 3 到 7 之间,好片在 7 到 10 之间。
 
分析

现在我们来看看四个网站的评分分布情况:


每个评分都有其特点。对于 IMDB 和 Fandango ,每个条对应于 0.5 范围,而对于另外两个,柱状条的值范围为 5 。
 
Metacritic


简单来看,可以注意到, metascore 的直方图最接近于正态分布。平均面积由不规则高度的柱形条组成,使顶部既不生硬,也不尖锐。

然而,位于中部的柱形条比其他两个地区的更多和更高,且高度由中部逐渐降低。所有这些都清楚地表明,大多数 metascores 都有一个平均值,这几乎是我们正在寻找的。

IMDB


再看到 IMDB ,评分的大部分也在平均区域,但是高分的评分比重明显偏多。其高分区域的直方图却较符合正态分布。然而,令人惊讶的是低评分区域有一部分是空的,这确实很奇怪。

最初,我认为责任在于样本数量较小。幸运的是,我在 Kaggle 找到一个现成的数据集,其中包含了 9,917 个不同电影的 IMDB 评分。其评分数据如下:


这种相似性提高了我对小样本代表性的信心。
 
分布的形状看起来与 214 部电影的样本几乎相同,除了低评分区域。这加大了 IMDB 评分的推荐度,尽管依旧很难与 Metascore 相比。

无论如何,结论证明: 214 电影样本还是相当具有代表性的。换句话说,对这四个网站电影评分的分析是很有可信度的。

Fandango 


随着信心的增强,让我们继续研究 Fandango 评分的分布情况,Hickey的分析似乎并没有太大变化。显而易见电影评分整体普遍偏高。低分区域完全是空的。可以很容易得出结论, Fandango 的分布与我的标准相当远。因此, Fandango 并不值得推荐。

烂番茄


最后, tomatometer 的分布意外均匀。

这种分布在上下文中不容易解释,因为 tomatometer 不是传统评分,而是代表对电影给予积极评价的评论家的百分比。无论如何,我想它仍然应该归结为相同的正态分布,大多数电影在正面影评的数量和负面影评之间有一定差异。

结论:推荐使用 Metacritic 

总而言之,我建议在查询电影评分时选择 Metacritic 。

metascore 是来自知名评论家的许多影评的加权平均数。 Metacritic 团队根据评分和影评并从 0-100 分进行分配。

同时 metascore 也有一些缺点,如:加权系数是保密的,所以你不会看到每个metascore 中计数的数值。


原作者  Alexandru Olteanu
编译 CDA 编译团队
本文为  CDA 数据分析师原创作品,转载需授权


CDA数据分析师

  CDA大数据分析圈是国内第一个汇聚大数据全面资源、数据人必备的APP。CDA整合了近千个大数据相关专业网站及媒体来源,汇聚了数百场国内大数据活动与会议,数千名名技术大牛、行业领袖,以及总结了最系统的优质学习课程资源。在这里,你可每天接触到最新行业资讯、前沿技术干货等信息;你可参与CDA俱乐部活动、各类大型会议,亲身与大牛接触,获得实务经验。你也可在专业课堂上与国内顶尖讲师进行交流切磋,最有效规划自身大数据职业发展。
  CDA大数据分析圈是数据人的家园,圈子里,资源流通,共享智慧,合作发展。CDA以“创新、开放、分享”的理念,期待你的加入!

分享到:

CDA数据分析师周边