假设检验:正态性检验,单样本t检验,配对t检验-CDA数据分析师官网

假设检验:正态性检验,单样本t检验,配对t检验

2017-04-26

假设检验:正态性检验,单样本t检验,配对t检验

最开始的是正态性检验，但很多情况下大家都不做，这其实不是很严谨。正态性检验指的是检验样本是否来自正态分布的总体。对于医学很多实验结果，我们想要应用一些检验方法来做出一些研究，很多情况下都要求这些数据来自一个正态分布总体。举个例子，我探究小狗狗血压是多少，想提出一个检验问题“H0：小狗狗的血压平均值是100mmHg，H1：这组小狗血压平均值不是100mmHg”。我们已经开始假设检验了。然而我们需要用到假设检验的方法有个小小的前提条件，要求小狗狗群体的血压数值是满足正态分布的。但是，我只知道这组样本数据，并不知道来自的总体是不是满足正态分布。所以这个问题之前有一个现需要解决的假设检验问题“H0：小狗狗群体的血压是满足正态分布的，H1：小狗狗群体血压不满足正态分布”。

检验的原理比较难不需要掌握，很遗憾在Excel中没有实现的方式。一般采用Jarque-Bera方法，算出数据的峰度和偏度，然后根据统计量继续查表之类的，没有操作性。

在SPSS中就非常方便，SPSS中比较常用简单点击就能进行的正态性检验是利用柯尔莫哥洛夫检验法。实际操作是这样的：

选择分析（Analysis）非参数检验（Nonparametric Test）单样本K-S检验（1 Sample K-S）然后就会出现

这几个选项，我们把x（血压值）放入要检验的变量列表里，我们勾上要检验的“正态分布”（这里其实也可以检验它的分布是否满足均匀，泊松，指数分布），点击确认就可以。结果解读

关注这个数据是否为正态分布只需要看最后一项，发现p值=0.2，大于0.05，那么我们需要接受我们的H0假设，这个数据是满足正态分布的。其他数据分别说的是样本数量，根据样本数量得出的总体满足正态分布的标准差跟平均值。

这里一定要弄清楚p值的概念，一般情况我们都是计算希望得到p小于0.05，从而拒绝H0的假设，并且我们犯一类错误（H0是正确的情况下我们拒绝它）很小，小于0.05。而这里因为我们提出的问题H0就是数据是符合正态分布的，那么我们如果得到的p小于0.05，说明我们要不接受它，认为数据来自的总体不是正态分布。而p大于0.05，要接受我们提出的假设，认为数据来自的总体是符合正态分布的。

当这组数据通过正态性检验，那么我们就可以进行接下来的一系列操作了。（接下来的操作我们都假设数据是满足正态性分布的，不满足的情况会再说）。

这个总体均值是这么大吗？

这种情况下书中写成单样本t检验。它适用于我们不知道总体均值跟方差的情况下，利用我们实验获得的样本数据，来检验总体的平均值是多少。用我们小狗狗的例子，假设检验问法是：

在SPSS中操作是

选择分析（Analyze），比较平均值（Compare means），单样本t检验（One sample）会弹出

我们把要检验的x放入，我们要检验总体均值是不是100，把检验值部分填写成我们需要的。

然后就出来结果了，我们可以看到样本的平均值为110.317，显著性p=0.002<0.05，拒绝原假设，那么总体的平均值应该是高于100的。这就完成了一个检验。值得提出的是差值95%置信区间的上下限，这里指的是总体与100的差值的95%置信区间，一般要是一正一负，说明总体与100的差可能为0，可能相等，这种时候不能拒绝0假设，这种时候显著性p肯定也是大于0.05的。至于t值与自由度，这些内容比较理论，之后需要的时候再说。

很遗憾，这种情况Excel也没有直接进行单样本t检验的操作方法，可能是这种检验比较简单，Excel都是两个起，这个就是我们接下来说的。

实验前后总体的平均值有差别吗？

这个在我们科研中是比较多用到的，教材上常写作配对t检验。实际上是这里我们研究实际涉及到两个总体，但这个很有特殊性。样本的选择是自身，前后进行对照，那么我们就会采用这种方法，医学中，用药前后，随访等等这种纵向的研究都可以用这种方法。这里有一个小小的假设，我们认为前后实验的方差是相等的（不要求掌握）。举个例子吧。我们想要研究长期使用避孕药除了会让女孩子皮肤更滑之外会不会有其他的什么不好的影响比如血压变化等等。我们收集了一些数据，同一批女孩子，服用避孕药后，血压前后是：

做一个简单的描述性统计可以看到

这两组样本之间平均值确实有差别（分别是115.6与120.4），但是我们不能通过描述性统计来说明这两个总体的平均值有差别。这时我们就会用到配对t检验。这个假设是：

我们在SPSS上

选择分析（Analyze），比较平均值（Compare Mean），成对样本t检验（Pair Sample）。

把我们要配对的分别放到变量一变量二上。确定。

结果上，第一张表是一些描述统计量，第二张表说明这两个数据之间是不是有相关性，一般来说，这种配对的检验，相关性都会很高（它也是一个假设检验，相关性0.9，显著性p几乎是0说明非常相关，如果相关性不是很高，我们可以采用另外的检验方法比如独立样本t检验，之后会说到）。第三张表就是这个假设检验最重要的部分，我们看显著性p=0.009<0.05，拒绝原假设，说明这两组来自总体均值之间有很显著的差异。我们可以看到，这个操作的原理实际上是用former-later做差，得到一组新的数据，直接检验这组新数据总体均值是不是等于0，这个也不要掌握不过。最重要就看显著性就好了，小于0.05，这两个总体均值就有明显差异了。

Excel上做这个也非常简单。我们同样选择data选项下，data analysis选项，选择配对两样本t检验。

选择输入数据，缺省假设这两组之间的差是0（根据我们之前提到的原理，其实是检验差值是不是等于0，那其实Excel可以更方便的检验差值是为哪一个具体的值而不单单是配对t检验所要求的0），

最后结果与SPSS差不多，主要看p都小于0.05，拒绝原假设。至于one-tail，two-tail，一般来说，当我们假设检验的问题是这两个总体均值相不相等的时候，我们看双尾的结果，要是检验问题是这两个总体均值是不是A大于B啊，我们看单尾。

结语

这次跟大家说了那么多，其实用起来都是非常简单的，单单看结果不想挖掘什么其实就只用注意p与0.05（一般情况，也有设定为0.1的）的关系。

正态分布假设检验

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

假设检验:正态性检验,单样本t检验,配对t检验

考试指南

报考指南

热门栏目