SPSS教程:判断数据正态分布的超多方法-CDA数据分析师官网

热线电话：13121318867

SPSS教程:判断数据正态分布的超多方法

2017-09-26

SPSS教程:判断数据正态分布的超多方法

当我们应用统计方法对数据进行分析时，会发现许多计量资料的分析方法，例如常用的T检验、方差分析、相关分析以及线性回归等等，都要求数据服从正态分布或者近似正态分布，但这一前提条件往往被使用者所忽略。因此为了保证数据满足上述统计方法的应用条件，对原始数据进行正态性检验是十分必要的，这一节内容我们主要向大家介绍如何对数据资料进行正态性检验。

一、正态性检验：偏度和峰度

1、偏度（Skewness）：描述数据分布不对称的方向及其程度（见图1）。

当偏度≈0时，可认为分布是对称的，服从正态分布；

当偏度>0时，分布为右偏，即拖尾在右边，峰尖在左边，也称为正偏态；

当偏度<0时，分布为左偏，即拖尾在左边，峰尖在右边，也称为负偏态；

注意：数据分布的左偏或右偏，指的是数值拖尾的方向，而不是峰的位置，容易引起误解。

2、峰度（Kurtosis）：描述数据分布形态的陡缓程度（图2）。

当峰度≈0时，可认为分布的峰态合适，服从正态分布（不胖不瘦）；

当峰度>0时，分布的峰态陡峭（高尖）；

当峰度<0时，分布的峰态平缓（矮胖）；

利用偏度和峰度进行正态性检验时，可以同时计算其相应的Z评分（Z-score），即：偏度Z-score=偏度值/标准误，峰度Z-score=峰度值/标准误。在α=0.05的检验水平下，若Z-score在±1.96之间，则可认为资料服从正态分布。

了解偏度和峰度这两个统计量的含义很重要，在对数据进行正态转换时，需要将其作为参考，选择合适的转换方法。

3、SPSS操作方法

以分析某人群BMI的分布特征为例。

(1) 方法一

选择Analyze → Descriptive Statistics → Frequencies

将BMI选入Variable(s)框中 → 点击Statistics → 在Distribution框中勾选Skewness和Kurtosis

(2) 方法二

选择Analyze → Descriptive Statistics → Descriptives

将BMI选入Variable(s)框中 → 点击Options → 在Distribution框中勾选Skewness和Kurtosis

4、结果解读

在结果输出的Descriptives部分，对变量BMI进行了基本的统计描述，同时给出了其分布的偏度值0.194（标准误0.181），Z-score = 0.194/0.181 = 1.072，峰度值0.373（标准误0.360），Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0，Z-score均在±1.96之间，可认为资料服从正态分布。

二、正态性检验：图形判断

1、直方图：表示连续性变量的频数分布，可以用来考察分布是否服从正态分布

(1)选择Graphs → Legacy Diaiogs → Histogram

(2)将BMI选入Variable中，勾选Display normal curve绘制正态曲线

2、P-P图和Q-Q图

(1) P-P图反映了变量的实际累积概率与理论累积概率的符合程度，Q-Q图反映了变量的实际分布与理论分布的符合程度，两者意义相似，都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布，则数据点应与理论直线（即对角线）基本重合。

(2) SPSS操作：以P-P图为例

选择Analyze → Descriptive Statistics → P-P Plots

将BMI选入Variables中，Test Distribution选择Normal，其他选项默认即可。

三、正态性检验：非参数检验分析法

1、正态性检验属于非参数检验，原假设为“样本来自的总体与正态分布无显著性差异，即符合正态分布”，也就是说P>0.05才能说明资料符合正态分布。

通常正态分布的检验方法有两种，一种是Shapiro-Wilk检验，适用于小样本资料（SPSS规定样本量≤5000），另一种是Kolmogorov–Smirnov检验，适用于大样本资料（SPSS规定样本量>5000）。

2、SPSS操作

(1) 方法一：Kolmogorov–Smirnov检验方法可以通过非参数检验的途径实现

选择Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S

将BMI选入Test Variable List中，在Test Distribution框中勾选Normal，点击OK完成操作。

(2) 方法二：Explore方法

选择Analyze → Descriptive Statistics → Explore

将BMI选入Dependent List中，点击Plots，勾选Normality plots with tests，在Descriptive框中勾选Histogram，Boxplots选择None，点击OK完成操作。

3、结果解读

(1)在结果输出的Descriptives部分，对变量BMI进行了基本的统计描述，同时给出了其分布的偏度值、峰度值及其标准误，具体意义参照上面介绍的内容。

(2)在结果输出的Tests of Normality部分，给出了Shapiro-Wilk检验及Kolmogorov-Smirnov检验的结果，P值分别为0.200和0.616，在α=0.05的检验水准下，P>0.05，不拒绝原假设，可认为资料服从正态分布。

(3)在结果输出的最后部分，同时给出了直方图和Q-Q图，具体意义参照上面介绍的内容。建议可以直接使用Explore方法，结果中不仅可以输出偏度值，峰度值，绘制直方图，Q-Q图，还可以输出非参数检验的结果，一举多得。

四、注意事项

事实上，Shapiro-Wilk检验及Kolmogorov-Smirnov检验从实用性的角度，远不如图形工具进行直观判断好用。在使用这两种检验方法的时候要注意，当样本量较少的时候，检验结果不够敏感，即使数据分布有一定的偏离也不一定能检验出来；而当样本量较大的时候，检验结果又会太过敏感，只要数据稍微有一点偏离，P值就会<0.05，检验结果倾向于拒绝原假设，认为数据不服从正态分布。所以，如果样本量足够多，即使检验结果P<0.05，数据来自的总体也可能是服从正态分布的。

因此，在实际的应用中，往往会出现这样的情况，明明直方图显示分布很对称，但正态性检验的结果P值却<0.05，拒绝原假设认为不服从正态分布。此时建议大家不要太刻意追求正态性检验的P值，一定要参考直方图、P-P图等图形工具来帮助判断。很多统计学方法，如T检验、方差分析等，与其说要求数据严格服从正态分布，不如说“数据分布不要过于偏态”更为合适。

有专家根据经验提出，标准差超过均值的1/2时提示数据不服从正态分布，或者四分位间距与标准差的比值在1.35左右时提示服从正态分布，这些可以作为正态性检验的一个粗略判断依据，仅供参考。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；