考试中心
CDA网校
CDA社区
CDA竞赛
CDA技术答疑
CDA会员
CDA产品
大数据与人工智能实验室
好学AI
(下一代智能学习产品)
CDA网校
CAIE人工智能工程师认证
首页
资讯
动态
认证考试
企业内训
搜索
登录
首页
精彩阅读
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是..
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是..
2017-04-20
收藏
前言
去影院看电影前我们都习惯上网看看影片的评分,从而选出想看的电影。
各种各样的电影评分网站都提供他们对电影的评分,那么他们的评分依据是什么?哪个电影评分网站给出的评分最靠谱呢?
一位数据科学家就从数据的角度分析了美国四个热门电影评分网站,
IMDB ,烂番茄, Metacritic ,和 Fandango
。从而得出了评分最值得推荐的电影评分网站。
评判的标准
本文的推荐需基于一定的标准,从而来判断哪个平台的电影评分是最值得参考的。在这种情况下,我将使用一个单一的标准:
正态分布
(也称为高斯分布)。
评判最佳的电影评分网站主要是根据其评分是否最接近
正态分布
。指的是给出一组存在一定间隔的值,其中大部分值位于中间,而少数值处于极端或者特别高或者特别低。一般来说,
正态分布
如下图所示:
电影评分的
正态分布
意味着评分中存在,少数低评分电影,大多数评分中等,少数高评分电影。最接近理想的
正态分布
也就是最佳的电影评分平台。
事实也是如此。就我自身而言,最为一名电影爱好者,我所看的几百部电影的电影可大致分为:
极少数值得反复观看的好片;
一些看了感觉浪费时间的烂片;
以及大多数感觉一般,看完就记不清剧情的影片。
我相信大多数人——无论是影评家,影迷,还是普通电影观众,都有类似的经历。
如果电影评分确实反映了电影的质量,那么我们应该看到同样的模式——大多数一般电影,少数烂片,少数好片。
每个柱状条对应一个评分。柱状条越高,处于这个评分区间的电影越多。
进而我们可以得出,一部电影的评分如下。
获得高分和地分的概率都较低,但很大概率获得一般评分。请注意“ likely ”与“ very likely ”之间的区别。
IMDB,烂番茄,Fandango 还是 Metacritic?
有了合适的标准,现在让我们具体来看看数据。
有很多网站都提供自己的电影评分。基于知名度,我只选择了以下四个网站,分别是
IMDB , Fandango ,烂番茄和 Metacritic 。
对于最后两个,我只专注于他们的标志性评分类型 - 即 tomatometer 和 metascore - 主要因为其评分对每个网站上的用户都是可见的(指那能够更快的找到这些评分)。其评分也在另外两个网站上分享( metascore 在 IMDB 上分享,而 tomatometer 可在 Fandango 上分享)。
我收集了些 2016 年和 2017 年参与评分人数最多和影评最多的电影。这214部电影评分清理后的数据集在 Github 可以下载。
我知道使用小样本是有风险的,但至少能通过获取最新的评分来补偿的。
在绘制和解释分布之前,让我明确下我之前使用的定性值:从 0 到 10 分的基准上,烂片评分在 0 到 3 之间,一般影片在 3 到 7 之间,好片在 7 到 10 之间。
分析
现在我们来看看四个网站的评分分布情况:
每个评分都有其特点。对于 IMDB 和 Fandango ,每个条对应于 0.5 范围,而对于另外两个,柱状条的值范围为 5 。
Metacritic
简单来看,可以注意到, metascore 的
直方图
最接近于
正态分布
。平均面积由不规则高度的柱形条组成,使顶部既不生硬,也不尖锐。
然而,位于中部的柱形条比其他两个地区的更多和更高,且高度由中部逐渐降低。所有这些都清楚地表明,大多数 metascores 都有一个平均值,这几乎是我们正在寻找的。
IMDB
再看到 IMDB ,评分的大部分也在平均区域,但是高分的评分比重明显偏多。其高分区域的
直方图
却较符合
正态分布
。然而,令人惊讶的是低评分区域有一部分是空的,这确实很奇怪。
最初,我认为责任在于样本数量较小。幸运的是,我在 Kaggle 找到一个现成的数据集,其中包含了 9,917 个不同电影的 IMDB 评分。其评分数据如下:
这种相似性提高了我对小样本代表性的信心。
分布的形状看起来与 214 部电影的样本几乎相同,除了低评分区域。这加大了 IMDB 评分的推荐度,尽管依旧很难与 Metascore 相比。
无论如何,结论证明: 214 电影样本还是相当具有代表性的。换句话说,对这四个网站电影评分的分析是很有可信度的。
Fandango
随着信心的增强,让我们继续研究 Fandango 评分的分布情况,Hickey的分析似乎并没有太大变化。显而易见电影评分整体普遍偏高。低分区域完全是空的。可以很容易得出结论, Fandango 的分布与我的标准相当远。因此, Fandango 并不值得推荐。
烂番茄
最后, tomatometer 的分布意外均匀。
这种分布在上下文中不容易解释,因为 tomatometer 不是传统评分,而是代表对电影给予积极评价的评论家的百分比。无论如何,我想它仍然应该归结为相同的
正态分布
,大多数电影在正面影评的数量和负面影评之间有一定差异。
结论:推荐使用 Metacritic
总而言之,我建议在查询电影评分时选择 Metacritic 。
metascore 是来自知名评论家的许多影评的加权平均数。 Metacritic 团队根据评分和影评并从 0-100 分进行分配。
同时 metascore 也有一些缺点,如:加权系数是保密的,所以你不会看到每个metascore 中计数的数值。
原作者 Alexandru Olteanu
编译 CDA 编译团队
本文为 CDA 数据分析师原创作品,转载需授权
正态分布
直方图
数据分析
数据分析咨询请扫描二维码
上一篇
图论在大数据分析中的作用!
下一篇
CDA认证再升一档!与国家共同推进大数据人才培养标准教育事业!
考试指南
考试介绍
考试大纲
考试内容
考试地点
报考指南
报考流程
考试时间
报名费用
联系我们
热门栏目
考试动态
报考指南
复习备考
职业发展
直播公开课
经验分享
客服
在线
立即咨询