登录
首页大数据时代什么是卡方分布?它与卡方检验有关系吗?
什么是卡方分布?它与卡方检验有关系吗?
2020-08-03
收藏

卡方分布是著名的三大抽样分布之一,在各种统计检验中都有着重要的意义。小编今天就跟大家分享一下有关卡方分布的一些理论知识,希望对于大家有所帮助。

一、什么是卡方分布?

1、卡方分布来源

卡方分布是阿贝(Abbe)在1863年首次提出的,后来由海尔墨特(Hermert)以及现代统计学的奠基人之一的卡·皮尔逊(C.K. Pearson)分别在1875年和1900年推导出来,是统计学中的非常实用的一个有名的分布。

2、卡方分布定义

概率密度

设X为自由度为的卡方随机变量, 那么它的概率密度函数就是

R代码绘制:


x <- seq(0, 60, 0.005)

f_nx <- function(x, n){
  x^(n/2-1)*exp(-x/2)/(2^(n/2)*gamma(n/2))
}
## 当然你也可以用R自带的 dchisq()函数来计算概率密度

n <- 1
plot(x, f_nx(x, n), type='l', ylim=c(0, 0.25), ylab=expression(f[n](x)))
text(3, 0.25, paste('n =', n))

n <- 4
lines(x, f_nx(x, n), type='l', col='red')
text(5, 0.17, paste('n =', n) , col='red')

n <- 10
lines(x, f_nx(x, n), type='l', col='blue')
text(12, 0.1, paste('n =', n) , col='blue')

n <- 20
lines(x, f_nx(x, n), type='l', col='purple')
text(20, 0.075, paste('n =', n) , col='purple')

n <- 30
lines(x, f_nx(x, n), type='l', col='green')
text(30, 0.062, paste('n =', n) , col='green')

n <- 40
lines(x, f_nx(x, n), type='l', col='pink')
text(44, 0.05, paste('n =', n) , col='pink')
 


当自由度n越大,概率密度曲线越趋于对称

4、χ2 变量性质:

卡方分布拥有具有k个自由度的,是一个由k个独立标准正态随机变量的和而构成的分布通常用于卡方检验中。

二、什么是卡方检验?

1、卡方检验是一种用途很广的计数资料的假设检验方法。属于非参数检验,主要是对两个或两个以上样本率( 构成比)以及两个分类变量的关联性分析进行对比。卡方检验的根本思想就是比较理论频数和实际频数的吻合程度或者拟合优度问题。/2、卡方检验的计算公式为:

其中,A是实际值,T是理论值。

x2是用于衡量实际值与理论值的差异程度的,这也是卡方检验的核心思想,其主要包含了以下两个信息:

1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)

2. 差异程度与理论值的相对大小

3、

对某无序分类变量各水平在两组或多组间的分布是否一致进行考察可以说是卡方检验最主要的用途了,除此之外.卡方检验还有很多其他用途。主要可以分为以下几个方面:

(1)检验某个连续变量的分布与某种理论分布是否一致。

(2)检验某个分类变量各类出现的概率与指定概率是否一致。

(3)检验某两种方法的结果是否保持一致。

(4)检验某两个分类变量是不是相互独立的。

(5)检验控制某种或者某几种分类因素的作用之后,判断两个分类变量是不是相互独立的。


数据分析咨询请扫描二维码

客服在线
立即咨询