如何在SPSS中做数据正态转化-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读如何在SPSS中做数据正态转化

如何在SPSS中做数据正态转化

2017-03-06

如何在SPSS中做数据正态转化

数据不完全符合正态分布，接下来的问题是，很多学科都在讲大样本不用太考虑正态分布问题，但事实上由此造成的误差确实存在，有时还会比较大。那么如何用SPSS做数据正态化转换呢？

严格说来，解决这个问题需要讲四个方面：

什么是正态转换？

为什么做正态转换？

何时做正态转化？

如何做正态转化？

我担心如果只讲How（如何做），也许有些初学者不分场合，误用滥用。但是，我同样担心如果从ABC讲起，难免过分啰嗦，甚至有藐视大家的智商之嫌。所幸现在是互联网时代，有关上述What, Why, When问题的答案网上唾手可得。如果对这些问题不甚了了的读者，强烈建议先到google上用“How to transform data to normal distribution"搜一下（或点击下面的“前10条”），前10条几乎每篇都是必读的经典。

有了上述交代，我们可以比较放心地来讨论如何做正态转换的问题了。具体来说，涉及以下几步：

第一步

查看原始变量的分布形状及其描述参数（Skewness和Kurtosis）。这可以用频率或者描述性统计或者BoxPlot；

第二步

根据变量的分布形状，决定是否做转换。这里，主要是看一下两个问题：

1、左右是否对称

也就是看Skewness（偏差度）的取值。如果Skewness为0，则是完全对称（但罕见）；如果Skewness为正值，则说明该变量的分布为positively skewed（正偏态，见下图1b）；如果Skewness为负值，则说明该变量的分布为negatively skewed（负偏态，见图 1a）。然而，肉眼直观检查，往往无法判断偏态的分布是否与对称的正态分布有“显著”差别，所以需要做显著性检验。如同其它统计显著性检验一样，Skewness的绝对值如大于其标准误差的1.96倍，就被认为是与正态分布有显著差别。如果检验结果显著，我们也许（注意这里我用的是“也许”一词）可以通过转换来达到或接近对称。见注解1的说明。

2、峰态是否陡缓适度

也就是看Kurtosis（峰态）是否过分peaked（陡峭）或过分flat（平坦）。如果Kurtosis为0，则说明该变量分布的峰态正合适，不胖也不瘦（但罕见）；如果Kurtosis为正值，则说明该变量的分布峰态太陡峭（瘦高个，见图2b）；反之，如果Kurtosis为负值，该变量的分布峰态太平缓（矮胖子，见图2a）。峰态是否适度，更难直观看出，也需要通过显著检验。如同Skewness一样，Kurtosis的绝对值如果大于其标准误差的1.96倍，就被认为与正态分布有显著差别。这时，我们也许可以通过转换来达到或接近正态分布（峰态）。

第三步

如果需要做正态化转换，还是根据变量的分布形状，确定相应的转换公式。最常见的情况是正偏态加上陡峰态。

1、如果是中度偏态

如Skewness为其标准误差的2-3倍，可以考虑取根号值来转换，以下是SPSS的指令（其中"nx"是原始变量x的转换值，参见注2）：

COMPUTE nx=SQRT（x）

2、如果高度偏态

如Skewness为其标准误差的3倍以上，则可以取对数，其中又可分为自然对数和以10为基数的对数。以下是转换自然对数的指令（注2）：

COMPUTE nx=LN（x）

以下是转换成以10为基数的对数（其纠偏力度最强，有时会矫枉过正，将正偏态转换成负偏态，注2）：

COMPUTE nx=LG10（x）

上述公式只能减轻或消除变量的正偏态(positive skewed)，但如果不分青红皂白（即不仔细操作第一和第二步）地用于负偏态（negative skewed）的变量，则会使负偏态变得更加严重。如果第一步显示了负偏态的分布，则需要先对原始变量做reflection（反向转换），即将所有的值反过来，如将最大值变成最小值、最小值变成最大值、等等。如果一个变量的取值不多，可用如下指令来反转：

RECODE x（1=7）（2=6）（3=5）（5=3）（6=2）（7=1）

如果变量的取值很多或有小数、分数，上述方法几乎不可能，则需要写如下的指令（不知大家现在是否信服了为什么要学syntax吗？）：

COMPUTE nx=max-x+1，其中max是x的最大值。

第四步

回到第一步，再次检验转换后变量的分布形状。如果没有解决问题，或者甚至恶化（如上述的从正偏态转成负偏态），需要再从第二或第三步重新做起，然后再回到第一步的检验，等等，直至达到比较令人满意的结果（见注3）。

数据正态化的特别注解

1、如同其它统计检验量一样，Skewness和Kurtosis的的标准误差也与样本量直接有关。具体说来，Skewness的标准误差约等于6除以n后的开方（根号喜下6/n），而Kurtosis的标准误差约等于24除以n后的开方（根号下24/n），其中n均为样本量。由此可见，样本量越大，标准误差越小，因此同样大小的Skewness和Kurtosis在大样本中越可能与正态分布有显著差别。这也许就是SW在问题中提到的“很多学科都在讲大样本不用太考虑正态分布问题”的由来。我的看法是，如果小样本的Skewness和Kurtosis是显著的话，一定要转换；在大样本的条件下，如果Skewness和Kurtosis是轻度偏差，也许不需要转换，但如果严重偏差，也是要转换。

2、大家知道，根号里的x不能为负数，对数或倒数里的x不能为非正数（即等于或小于0）。如果你的x中有是负数或非正数，需要将其做线性转换成非负数（即等于或大于0）或正数（大于0），如 COMPUTE nx = SQRT (x - min) 或 COMPUTE nx = LN (x - min + 1)，其中的min是x的最小值（为一个非正数）。

3、不是任何分布形态的变量都可以转换的。例外之一是“双峰”或“多峰”分布（distribution with dual or multiple modality），没有任何公式可以将之转换成单峰的正态分布。数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布偏差数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何在SPSS中做数据正态转化

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

如何在SPSS中做数据正态转化

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...