
相关关系并不意味着因果关系 大数据应避免大混乱
当今时代,大数据泛滥、数据挖掘工具种类繁多,玩弄图表游戏已经变得不能再容易,管理者需要火眼金睛,秒杀数据间的虚假关系!
举个例子,随机选取统计学上相关的两组数据,Y轴表示数据。
截取Y轴,让两条线接近。看,订阅HBR增加了WidgetCo公司的收入。
是不是感觉被忽悠了呢?!警惕虚假相关,一起新技能get√
我们都知道“相关关系并不意味着因果关系”,但当我们看到两条线朝同样的方向倾斜,柱状图中数值同时上升,或者数据点在散点图上聚集在一起时,数据简直在请求我们找出其中的逻辑,我们也甚至想要相信其中存在某种逻辑。
然而,统计学原则要求我们不能做这个逻辑跳跃。有些图表利用视觉小把戏,企图证明事物间存在密切相关性。哈佛法学院法学博士生、《虚假相关》(Spurious Correlations)一书作者泰勒.维根(Tyler Vigen),在他的网站上展示了一些荒唐可笑的“相关性”例子,比如美国人造黄油的人均消耗量和缅因州离婚率。
1 荒谬性
泰勒维根制作网站就是为了从容量较大的数据组中,找到并描述出数据间荒谬的相关性。以下是三个例子:
2 严重性
我们能够轻易发现并揭穿荒谬的例子,但当管理者碰到人为设计却看似合理的图表该如何做呢?
以下是三类需要留意的把戏:
(1)苹果和橘子 比较不同的变量
表示不同数值的两条曲线可能相似,但实际上不应放在一起比较。
当两个数值看似相关但实际上无关时,这种曲线图展示方式极其有害。所以最好用不同的表格表示不同的数值。
(2)扭曲坐标轴 调整数值范围从而比较数据(图表中K代表1000)
即使两条Y 轴表示的数据类型相同,改变数值范围也能改变曲线走势,进而指示虚假相关性。
左图中,表示RetailCo 公司每月收入的两条Y 轴,数值范围和变化比例都不同。去除第二条Y 轴后显示了图表是如何被扭曲的。
(3)如果-那么 暗示不存在的因果关系
将不相关的数据绘制在一张图表中,让它看起来像一个变量变化,会引发另一个变量发生变化。
我们可以根据左图来做一个推断——Pandora(Pandora 是美国最流行的提供在线音乐服务的软件——译者注)净亏损越少,越多音乐作品受到版权保护——而实际上这只是巧合,并不存在这样的因果关系。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08CDA 数据分析师:解锁数据价值的专业力量 在当今这个数据爆炸的时代,数据已成为像石油一样珍贵的战略资源。而 CDA 数据分析师, ...
2025-08-08人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07