
听说过这句话吗:一千个影迷心中,就有一千个哈利波特。
一部电影好不好看,这绝对是能让两个老朋友打起来的话题。这位只看特效闪瞎眼的科幻片,那位独爱温情脉脉的文艺片,这位推崇意象塞满屏幕的魔幻现实风格,那位偏好严谨精妙的悬疑推理剧情。青菜萝卜,各有所好,哪部电影更经典,一时间,谁也说不服谁。
打一架决定谁说的对?且慢动手,咱们来听互联网电影大数据的……什么?电影大数据是个啥?
这就要从互联网电影数据库(Internet Movie Database, 简称IMDb)说起了。这个数据库,是亚马逊网络电子商务公司旗下的一个网站,在这里,你能找到几乎最详细的电影资料,从演员表、票房收入到剧情梗概、幕后花絮,可谓是应有尽有。
其中最要紧的一项,就是由网友们提交的电影之间的“联系”。这些联系包括“参考”、“恶搞”、“放映”、“续作”等等。也可以说,这种联系,是新拍的电影,对老电影的“引用”,俗称“向经典致敬”。
这样致敬的例子太多啦,最近很火的电影《一步之遥》里,姜文坐在百叶窗前,黑西装的领子上别着一枚红玫瑰,怀里还抱着一只兔子。眼尖的观众立刻就看出来啦,这不是经典美国电影《教父》里的场景吗,一样的布景和镜头景别,一样的服装和光线,甚至还有一样位置的玫瑰花。
哦,有一点儿不同,马龙·白兰度怀里抱着的是只猫。
甭管抱的是什么,这就是向经典致敬了。《教父》被致敬的次数,已经排到了电影史上的第八位。这部1972年的名作,自入选以来,已经被长间隔引用了162次。排名第一的影片《绿野仙踪》于1939年上映,其长间隔引用数据是565次,把第二名《星球大战》系列甩出了200多次,后者的数据是297次。
上文说到的长间隔引用次数,正是芝加哥西北大学复杂系统研究院联席主任路易斯·阿马拉尔教授所认为的评价电影重要与否的最佳指标。
路易斯·阿马拉尔教授率领的科学团队,已经为电影衡量标准这事儿奋斗了很久。在他们看来,票房、专家点评、获奖与否、观众口碑,统统做不得准——票房可以靠宣传和排期,专家和观众的看法都有主观喜好因素,甚至会“带有偏见”,评奖的猫腻就更多了——除了冰冷又可爱的大数据,还有什么标准能更显得科学呢。
为了分析电影的影响力,研究团队选择借助互联网电影数据库的引用功能:一个是计算电影被搜索引擎超链接的次数,另一个是计算电影在上映后,25年以上的时间跨度中,被其他电影引用的次数,也就是长间隔引用次数。
25年这个阈值,是研究团队通过观察经验分布和零模型对比发现的。低于这个年限的电影被引用,还很有可能是受潮流影响,只有真正的好片儿,才受得住时间的考验。
事实上,在预测电影的重要性方面,数据科学也的确要比影评人更客观。阿马拉尔教授带着他的“长间隔引用次数”,一出手就能镇住一片。在海量计算之后,研究团队给出的“最具影响力”的电影榜单里,上榜影片入选美国国家影片登记表的,比其他各种专家的影评意见都靠谱。看来,大数据不但能预测商业行为,还能帮你列一份必看电影名单,只不过等待的时间有点久,要花足足25年。
不过,人到底是主观的动物。我猜想,对那些骨灰级影迷而言,任你大数据再科学、再准确,真到了讨论电影好不好看的时候,两个老朋友仍然能打起来。比如我,就是喜欢《星球大战》甚于《绿野仙踪》,无论大数据怎么显示,对我来说,排名第二的这部片子,还是比第一名的重要。
还是那句话,一千个影迷心中,永远有一千个哈利波特!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03从招聘要求看数据分析师的能力素养与职业发展 在数字化浪潮席卷全球的当下,数据已成为企业的核心资产,数据分析师岗位也随 ...
2025-07-03Power BI 中如何控制过滤器选择项目数并在超限时报错 引言 在使用 Power BI 进行数据可视化和分析的过程中,对过滤器的有 ...
2025-07-03把握 CDA 考试时间,开启数据分析职业之路 在数字化转型的时代浪潮下,数据已成为企业决策的核心驱动力。CDA(Certified Da ...
2025-07-02CDA 证书:银行招聘中的 “黄金通行证” 在金融科技飞速发展的当下,银行正加速向数字化、智能化转型,海量数据成为银行精准 ...
2025-07-02探索最优回归方程:数据背后的精准预测密码 在数据分析和统计学的广阔领域中,回归分析是揭示变量之间关系的重要工具,而回 ...
2025-07-02CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30探索 CDA 数据分析师在线课程:开启数据洞察之旅 在数字化浪潮席卷全球的当下,数据已成为企业决策、创新与发展的核心驱 ...
2025-06-303D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32% 编辑:LRST 【新智元导读】中科院自动化所提出BridgeVLA模型,通过将 ...
2025-06-30LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26