京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:丁点helper
来源:丁点帮你
今天我们开始讲什么是卡方分布及卡方检验。
第一个问题是,卡方为什么有平方?
还记得我们在第一篇讲两类错误中谈过的赌场的例子吗,小金赌色子输了很多钱,为了看色子是否有问题,他偷了一颗拿回家想偷偷验证一下是否有人动手脚。
小金闷在家丢了一天,一共丢了902次,而且每一次都做了记录(丢的是昏天黑地,可脑补这个画面)。
下面表格就是小金记录的获得的点数情况,比如一共有242次(27%)出现1点,有56次(6%)出现2点……有196次(22%)出现6点。
实际情况的色子点数
小金怎样通过”狂丢色子“来判断其是否有问题呢?
这就需要用到卡方检验了,实际上也是假设检验的大逻辑。
我们知道小金一共丢了902次,假设这颗色子是正常均匀的,那么每次丢色子,每一点出现的可能性都是1/6,所以理论上每一点出现的次数应该都是:150.33=902/6次。
如下表:我们把每一点实际出现的次数与理论情况下应该出现的次数做一个对比,其中实际观察次数用A表示,理论次数用T表示:
色子点数:理论VS实际
采用假设检验的标准语言来验证就是:
H0:这颗色子是均匀公平,每一点出现的可能性都为1/6;
H1:这颗色子不是均匀公平的,每一点点数出现的概率不都相同;
如果H0假设成立,那么“观察次数”和“理论次数”之间不会差很多;可是如果两者的差距过大,达到我们规定的某个水平,就认为在H0假设成立的情况下是不会出现的,此时就会拒绝原假设,即认为这个色子不是均匀的。
那怎么来计算这个差呢?
依照我们讲标准差的思路,如果直接将实际情况的点数与理论情况点数相减再加和取平均数,基本会得到0的结果,没有什么意义,而取绝对值运算又不方便,所以还是得通过平方。这就是卡方中平方的由来。
卡方值计算
上面这个计算公式,A代表“实际频数”,T代表“理论频数”。
如果把这个公式应用到小金丢色子的例子,就会得到:
卡方值为274.92,其对应的P值小于0.01,也就意味着,如果原假设成立(色子没问题),那么“理论与现实”出现这么大的差距的可能低于5%,我们认为这是不可能,因此,要拒绝原假设,认为“色子有问题”。
所以“十赌九输”是有原因的。
好了,回到今天的正题,小伙伴们可能觉得上面的例子和平常用到的卡方检验好像不太一样。
实际上,原理完全一致。
卡方检验最常用的是检验两个率是否一致,对照上述“丢色子”的例子,我们会先假设这两个率(注意是指总体率)相等,通过相等的总体率,再反推理论发生的频数,然后计算实际的观察频数与理论频数的卡方值来判断差距是否足够大,从而决定假设是否可以被拒绝。
下面以新冠肺炎为例,说明一下卡方检验的应用。
为比较A、B两个城市新冠肺炎病例的检出情况,分别随机抽取A地377人,B地301人,进行核酸检测。结果见下表(数据纯属虚构),现判断两个城市的新冠肺炎检出率是否相同?
如上表,A地的检出率是19.89%;B地的检出率是32.89%,卡方检验就要来判断这两个样本率所代表的总体率是否相等。
现在我们假设它们相等,那怎么计算理论频数呢?
此时就需要用到“合计检出率——25.66% “来算,这个数据就相当于上述色子例子中的1/6,是一个标准。
所以,如果两城市新冠肺炎检出率没有区别,且大概都为25.66%,那理论上A地会检出多少例呢?96.75(377*25.66%),而未检出的就为280.25(377-96.75)。
同理,B地会检出77.25(301*25.66%),未检出的就为223.75(301-77.25)。
现在我们就得到了各城市检出与未检出的理论频数,从而就能计算卡方值。
该卡方值对应的P值小于0.05,所以可以认为A、B两个城市新冠肺炎的检出率不一致,B地检出率更高,感染情况更严重。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05