从赌色子到新冠肺炎，一文帮你弄懂什么是卡方分布？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代从赌色子到新冠肺炎，一文帮你弄懂什么是卡方分布？

从赌色子到新冠肺炎，一文帮你弄懂什么是卡方分布？

2020-08-14

作者：丁点helper

来源：丁点帮你

今天我们开始讲什么是卡方分布及卡方检验。

第一个问题是，卡方为什么有平方？

还记得我们在第一篇讲两类错误中谈过的赌场的例子吗，小金赌色子输了很多钱，为了看色子是否有问题，他偷了一颗拿回家想偷偷验证一下是否有人动手脚。

小金闷在家丢了一天，一共丢了902次，而且每一次都做了记录（丢的是昏天黑地，可脑补这个画面）。

下面表格就是小金记录的获得的点数情况，比如一共有242次（27%）出现1点，有56次（6%）出现2点……有196次（22%）出现6点。

实际情况的色子点数

小金怎样通过”狂丢色子“来判断其是否有问题呢？

这就需要用到卡方检验了，实际上也是假设检验的大逻辑。

我们知道小金一共丢了902次，假设这颗色子是正常均匀的，那么每次丢色子，每一点出现的可能性都是1/6，所以理论上每一点出现的次数应该都是：150.33=902/6次。

如下表：我们把每一点实际出现的次数与理论情况下应该出现的次数做一个对比，其中实际观察次数用A表示，理论次数用T表示：

色子点数：理论VS实际

采用假设检验的标准语言来验证就是：

H0：这颗色子是均匀公平，每一点出现的可能性都为1/6；

H1：这颗色子不是均匀公平的，每一点点数出现的概率不都相同；

如果H0假设成立，那么“观察次数”和“理论次数”之间不会差很多；可是如果两者的差距过大，达到我们规定的某个水平，就认为在H0假设成立的情况下是不会出现的，此时就会拒绝原假设，即认为这个色子不是均匀的。

那怎么来计算这个差呢？

依照我们讲标准差的思路，如果直接将实际情况的点数与理论情况点数相减再加和取平均数，基本会得到0的结果，没有什么意义，而取绝对值运算又不方便，所以还是得通过平方。这就是卡方中平方的由来。

卡方值计算

上面这个计算公式，A代表“实际频数”，T代表“理论频数”。

如果把这个公式应用到小金丢色子的例子，就会得到：

卡方值为274.92，其对应的P值小于0.01，也就意味着，如果原假设成立（色子没问题），那么“理论与现实”出现这么大的差距的可能低于5%，我们认为这是不可能，因此，要拒绝原假设，认为“色子有问题”。

所以“十赌九输”是有原因的。

好了，回到今天的正题，小伙伴们可能觉得上面的例子和平常用到的卡方检验好像不太一样。

实际上，原理完全一致。

卡方检验最常用的是检验两个率是否一致，对照上述“丢色子”的例子，我们会先假设这两个率（注意是指总体率）相等，通过相等的总体率，再反推理论发生的频数，然后计算实际的观察频数与理论频数的卡方值来判断差距是否足够大，从而决定假设是否可以被拒绝。

下面以新冠肺炎为例，说明一下卡方检验的应用。

为比较A、B两个城市新冠肺炎病例的检出情况，分别随机抽取A地377人，B地301人，进行核酸检测。结果见下表（数据纯属虚构），现判断两个城市的新冠肺炎检出率是否相同？

如上表，A地的检出率是19.89%；B地的检出率是32.89%，卡方检验就要来判断这两个样本率所代表的总体率是否相等。

现在我们假设它们相等，那怎么计算理论频数呢？

此时就需要用到“合计检出率——25.66% “来算，这个数据就相当于上述色子例子中的1/6，是一个标准。

所以，如果两城市新冠肺炎检出率没有区别，且大概都为25.66%，那理论上A地会检出多少例呢？96.75（377*25.66%），而未检出的就为280.25（377-96.75）。

同理，B地会检出77.25（301*25.66%），未检出的就为223.75（301-77.25）。

现在我们就得到了各城市检出与未检出的理论频数，从而就能计算卡方值。

该卡方值对应的P值小于0.05，所以可以认为A、B两个城市新冠肺炎的检出率不一致，B地检出率更高，感染情况更严重。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

假设检验什么是卡方分布

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇等级变量的假设检验怎么做？SPSS教程

下一篇CDA数据分析师认证证书含金量不断提高，成数据分析入门新刚需！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从赌色子到新冠肺炎，一文帮你弄懂什么是卡方分布？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】一文读懂Excel箱线图含义：用简单图表解 ...

【CDA干货】ROC曲线阈值优化指南：如何科学提高阈值 ...

CDA数据分析师：以专业报告呈现，解锁数据洞察的落 ...

【CDA干货】主成分分析（PCA）实战全解析：从原理简 ...

【CDA干货】解析数据分析中基准比的本质：离基准值 ...

CDA数据分析师：驾驭业务数据分析全步骤，赋能业务 ...

【CDA干货】信贷违约率的统计分布特征与测算方法研 ...

【CDA干货】业务效果AB增量评估体系：搭建、实操与 ...

CDA数据分析师：以战略分析方法为翼，赋能企业长远 ...

【CDA干货】复杂抽样的统计描述：方法、要点与实操 ...

【CDA干货】详解聚合函数：可一次使用多个吗？实操 ...

CDA数据分析师视角：战略数据分析与业务数据分析的 ...

【CDA干货】详解B+树叶子节点指针：双向还是单向？ ...

【CDA干货】警惕！REPLACE(UUID(), '-', '')用于INS ...

CDA数据分析师与商业数据分析总体流程：全链路实操 ...

【CDA干货】通过标准差与平均值关系衡量数据波动性 ...

【CDA干货】基于GB标准的t检验、F检验与显著性差异 ...

CDA数据分析师与统计制图：以可视化赋能数据叙事与 ...

【CDA干货】箱线图上下限在线计算：原理、工具与实 ...

【CDA干货】多重共线性下的变量保留策略：平衡信息 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载