登录
首页精彩阅读【从零开始学统计】5.假设检验那些事
【从零开始学统计】5.假设检验那些事
2014-07-04
收藏
1、什么是假设检验
       个人理解,假设检验就是利用反证法和小概率事件对原假设(Null Hypothesis)和备选假设(Alternative Hypothesis)进行选择。首先,假设原假设成立,那么就可以利用原假设的一些条件,如统计量的概率分布。然后,选定显著性水平α和对应的拒绝域(一个区间),一般选择α= 5%或α= 1%。接下来,根据样本和假设的统计量,计算P值(P Value)。如果P值对应的统计量在显著性水平以内,那么就拒原假设。直观的理解,因为α比较小,属于小概率事件,一般不可能发生,但是现在却发生了,那么原假设有问题,所以拒绝原假设,接受备选假设。

2、为什么要做假设检验
       假设检验是统计中常用的手段,大家比较熟悉的t检验、方差分析、卡方检验等都是假设检验的范畴。为什么要做假设检验呢?实际上原因就在于抽样的问题。如果我们不抽样,直接比较总体,那就无需做假设检验假设检验都是对样本做的,目的是通过样本推理总体。
       例如,想比较两个班的学生身高是否有差异,有两个方法:一是把两个班级的学生都测量身高,然后比较两个班的均数。二是从每个班抽样一部分学生测量身高,然后比较抽样的两个样本均数,推理是否两个班的身高不同。
       第一种方法当然最理想,直接就知道是不是有差异,但是也有一个问题,如果不是比较2个班,而是两个省,那测量起来就有点麻烦。所以在很多情况下第一种方法难以实施。
       第二种方法实际上就是假设检验的思想,通过样本推理总体。比如,两个班均100人,从每个班各抽样30人测量身高,然后比较他们的身高是否有差异。
       但是,这也有个问题,那就是,我每个班选择的30人是否代表了这个班的身高(也正是前面所说抽样误差的问题)。
       如果最终比较这两个班的60人,发现身高不同,我是否可以通过这60人的结果来说这2个班的身高就不同呢?这就需要一个概率的问题,也就是我根据现有的数据(也就是这60人)作出的推断有多大的可信程度?如果有95%以上的把握认为我的结果是可靠的,那我就可以比较放心地说,这两个班级的学生身高就是不同。如果我的把握度没有这么高,我是否能说的理直气壮呢?到底多高才算高呢?所以就需要一个标准,目前国际上公认的标准就是95%。95%只是一个标准,并不是说我非要P<0.05才算结果理想,P<0.05表示我的把握度大于95%,但是如果P=0.06,那我的把握度=94%难道就不行吗?所以现在的文章要求列出确切的P值,结论是不是可靠,审稿人看看P值到底有多大,心里自然有数。如果单纯写个P>0.05,那P=0.06也是大于0.05,P=0.96也是大于0.05,但是之间的差距那是一目了然。所以,建议还是写上具体的P值是最好。


需要指出的是,无论是否拒绝原假设,都不能保证100%正确,只能在一定程度上估计这件事情可能性。而且检验结果很大程度上取决于样本,所以一旦样本出现偏倚(Biased),会直接影响检验结果。


3、假设检验,形式化的可以总结为以下6步:
  • 确定原假设H0和备选假设H1
  • 根据H0,确定统计量的概率分布和相关参数
  • 确定显著性水平α和拒绝域
  • 根据步骤2的参数,求出P值
  • 查看P值是否位于拒绝域以内
  • 做出判断,如果P值在拒绝域以内,那么拒绝H0接受H1。否则接受H0拒绝H1。

下面的图是双侧和单侧检验的拒绝域:

1.gif

上面提到,假设检验不会100%确保检验结果正确,会出现上面的两类错误:
第一类错误:错误的拒绝原假设。原假设正确,但是却错误的拒绝了,发生此事件的概率为α,也就是显著性水平。所以显著性水平越高,越容易发生。
第二类错误:错误的接受原假设。原假设错误,但是却接受了原假设。发生此事件的概率需要根据统计量的分布,和被选项假设具有具体值来确定,这里先略过(《Head First Statistics》假设检验这一章中举了一个例子描述如何求解其概率)。

  • 同时引申出一个问题如何选择显著性水平α:
       显著性水平α一般为0.05,但是根据需要可以设为0.1或者0.01。当α较大时,第一类错误的概率增大,第二类错误的概率减少;α较小时,则相反。下面举几个例子:
       例1 一个汽车制造商正在考核新零件,该零件对车辆安全至关重要。目前正在抽样检测,你觉得α应该如何指定。
解答H0:新配件与原始配件的安全性能相同。H1:新配件比原始配件更安全。由于此配件关系用户声明安全,所以需要尽量使用较安全的配件,拒绝假设H0,那么可以设将α设置高一点,比如 0.1。
       例2 一个机器中,有一个配件,替换成本十分高,但是如果该配件损坏了,对机器影响不大,请问显著性水平应该如何选取。
解答 H0:配件正常工作。H1:配件损坏。由于替换成本较高,所以需要确保零配件的确损坏才能替换,可以将α设置较小,比如0.01。


再往外说点,来说说区间估计与假设检验的关系(前面不是刚弄过置信度和最小二乘估计么,略微结合一下)
主要区别:
区间估计通常求得的是一样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验
区间估计立足于大概率,通常以较大的置信水平(1-α)去保证总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平(α)去检验对总体参数的先验假设是否成立。
那些剪不断的联系:
两者的推断结果都有一定的可信程度也有相应的风险;
对同一问题的参数进行推断,使用同一种样本,同一统计量和分布,所以两者可以互相转换。也就是说区间估计问题可以转换成假设问题,区间估计中的置信区间对应假设检验中的接受域,置信区间以外的就是其拒绝域。

数据分析咨询请扫描二维码

客服在线
立即咨询