登录
首页精彩阅读相关关系并不意味着因果关系 大数据应避免大混乱
相关关系并不意味着因果关系 大数据应避免大混乱
2015-07-06
收藏

相关关系并不意味着因果关系 大数据应避免大混乱


当今时代,大数据泛滥、数据挖掘工具种类繁多,玩弄图表游戏已经变得不能再容易,管理者需要火眼金睛,秒杀数据间的虚假关系!

  举个例子,随机选取统计学上相关的两组数据,Y轴表示数据。

  截取Y轴,让两条线接近。看,订阅HBR增加了WidgetCo公司的收入。

  是不是感觉被忽悠了呢?!警惕虚假相关,一起新技能get√

  我们都知道“相关关系并不意味着因果关系”,但当我们看到两条线朝同样的方向倾斜,柱状图中数值同时上升,或者数据点在散点图上聚集在一起时,数据简直在请求我们找出其中的逻辑,我们也甚至想要相信其中存在某种逻辑。

  然而,统计学原则要求我们不能做这个逻辑跳跃。有些图表利用视觉小把戏,企图证明事物间存在密切相关性。哈佛法学院法学博士生、《虚假相关》(Spurious Correlations)一书作者泰勒.维根(Tyler Vigen),在他的网站上展示了一些荒唐可笑的“相关性”例子,比如美国人造黄油的人均消耗量和缅因州离婚率。

  1 荒谬性

  泰勒维根制作网站就是为了从容量较大的数据组中,找到并描述出数据间荒谬的相关性。以下是三个例子:

  2 严重性

  我们能够轻易发现并揭穿荒谬的例子,但当管理者碰到人为设计却看似合理的图表该如何做呢?

  以下是三类需要留意的把戏:

  (1)苹果和橘子 比较不同的变量

  表示不同数值的两条曲线可能相似,但实际上不应放在一起比较。

  当两个数值看似相关但实际上无关时,这种曲线图展示方式极其有害。所以最好用不同的表格表示不同的数值。

  (2)扭曲坐标轴 调整数值范围从而比较数据(图表中K代表1000)

  即使两条Y 轴表示的数据类型相同,改变数值范围也能改变曲线走势,进而指示虚假相关性。

  左图中,表示RetailCo 公司每月收入的两条Y 轴,数值范围和变化比例都不同。去除第二条Y 轴后显示了图表是如何被扭曲的。

  (3)如果-那么 暗示不存在的因果关系

  将不相关的数据绘制在一张图表中,让它看起来像一个变量变化,会引发另一个变量发生变化。

  我们可以根据左图来做一个推断——Pandora(Pandora 是美国最流行的提供在线音乐服务的软件——译者注)净亏损越少,越多音乐作品受到版权保护——而实际上这只是巧合,并不存在这样的因果关系。

数据分析咨询请扫描二维码

客服在线
立即咨询