数据分析中6个常规的错误-CDA数据分析师官网

热线电话：13121318867

数据分析中6个常规的错误

2016-06-10

数据分析中6个常规的错误

1. 错把关联当因果

夏天雪糕销量越好，游泳溺水的事件也越多，是不是雪糕中某种成分对人影响的后果呢？简单的思考后就会发现，是因为气温越高，雪糕销量会越高，同时温度越高，去河里游泳的孩子就越多，溺水事件也就越多，雪糕销量和溺水是关联关系，而并非因果关系。

上面的例子很简单，也很容易被识破，但在实际的数据分析中，关联和因果并不是那么容易区分。再举一例：

某广告公司分析人员发现：每月广告投入越高的用户，越不容易流失，而广告投入低的用户群则很容易流失，从而得出结论：“高投入会降低客户流失率，建议销售引导客户提高首月广告投入，从而降低新客流失率”。而实际情况是，新客户初期的投入常常都比较少，看广告有了效果之后，才会逐步扩大广告投放预算，投入高的客户流失率低是因为认可广告投放效果，而不是因为花的钱多。

关联性很容易判断，如何判断是否是因果关系呢？因果符合下面的特征：

1.两个事件是关联的，就是说总是同时出现

2.原因在前，结果在后

3.原因消除的话，结果也消除

因果关系需要设计相对严谨的对照来证明，更多的时候需要靠经验来判断，这时候更注意要谨慎下结论。

2. 不匹配的比较

例：美国与西班牙战争爆发后，不少美国人不愿意参军，坦诚是因为怕死，针对这种情况，美国军方做了一份统计报告来劝说大家参军：“可靠数据统计，美国海军的死亡率是 0.9%，而同期纽约市民的死亡率是 1.6%”，潜台词非常明显，如果惧怕死亡更应该参军，因为在军营中比呆在纽约更安全。

这个例子乍看起来很有道理，如果你仔细琢磨，就会发现其中的阴谋：比较的对象不一样！如果仔细查阅，就会发现，美国海军死亡名单基本都是健康的青年小伙，而纽约市民的死亡名单大多是老弱病残，这两份数据放在一起显然不合适。

在做数据比较的时候，需要选取合适的比较对象，以便更准确地认知和发现结论，在数据分析中，一般选取的比较对象有以下几类：

自身历史
与历史同期相比，比如去年同期或上个季度。

同行竞品

合理预期

与之前产品发展的预期相比，比如：A 产品的研发，比预期收入提高 10%

同质对照组

A/B Test 结果的对比

3. 基于个案的认知

每当劝说朋友戒烟时，朋友总会拿出这个段子：

不抽烟不喝酒，63岁--林彪

不抽烟只喝酒，73岁--周恩来

只抽烟不喝酒，83岁--毛泽东

既抽烟又喝酒，93岁--邓小平

吃喝嫖赌样样有，103岁--张学良

没有任何坏习惯，一生做好事--23岁，雷锋

无论抽不抽烟，一个人都可能在各个年龄下死亡，从宏观的统计上分析，抽烟的人的寿命平均比不抽烟的人小 5 岁，而上面举出的个例，则无法说明问题

4. 精挑细选的数据维度

例：一所艺术院校，男生校服只有裤子款式，而女生有裤子和裙子两种款式，经统计得知 75% 的女生选择裙子，25% 的女生选择裤子，今天你进入校园，远远看到一个穿裤子的同学，他是男生的概率更高，还是女生的概率更高？

凭感觉得到的答案是男生概率高，因为所有的男生都穿裤子款式，而只有 25% 的女生选择裤子款式。这个例子中忽略了一个重要的数据：男生和女生的人数。

如果告诉你，该学校共 1000 人， 900 人是女生，100 人是男生，结果是什么？

女生选裤子的有 900*25% = 225 人

男生选裤子的有 100 人

很显然，这种情况下，这个人是女性的概率更高。在普通人看来，往往会有男女各占一半的经验误解。所以，在一些情况下，隐藏了部分数据就是说谎。

5. 过多脑补的推理

在一个冬日的晚上，产品流量出现下跌，经过一番分析，得出原因：天气太冷，网民因为手冷而不愿意上网，提前上床睡觉，所以流量下跌。

在一个冬日的晚上，产品流量出现上涨，经过一番分析，得出原因：天气太冷，网民愿意出门，只好在家窝着上网，所以流量上涨。

该案例背后的信息是：一个结果可能有多个原因可以解释，“大忽悠”往往引导人们只去相信其中的一个，整个推理过程没有对应的细节数据辅助。

6. 先入为主的偏见

QQ截图20160608105101.png

先别往下看，这幅图的内容是什么？

你可能觉得这幅图太过模糊和抽象，一时也看不出是什么，如果告诉你说，这是一只斑点狗，很多人就会恍然大悟，觉得确实是一只斑点狗。这里隐藏了一个重要的心理学理念：

你脑子里想的是什么，你就会去寻找什么，你将会得到你期盼的结果 —— 勃朗宁

该理念有个通俗的说法是“人们只会看见他们愿意看见的事情”。

在数据分析中，虽然很难不带任何“先入为主”的观点，但依然要追求追求客观分析的态度，也要适时根据数据去观察和反思，不断修正自己的观点。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析中6个常规的错误

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载