SPSS缺失值：缺失值分析-CDA数据分析师官网

热线电话：13121318867

SPSS缺失值：缺失值分析

2017-11-02

具有缺失值的个案会引发严重的问题，因为典型的建模过程会简单地从分析中丢弃这些个案。如果存在少量缺失值（大约低于个案总数的5%），且这些值可以被认为随机缺失，即值的缺失不依赖于其他值，则列表删除的典型方法相对比较“安全”。“缺失值”选项可以帮助确定列表删除是否足够，并在必要时提供其他缺失值处理方法。

1、多重插补：过程提供了缺失数据模式分析，着眼于最终对缺失值进行多重插补。这意味着会产生多个版本的数据集，它们分别包含各自的插补值集。在执行统计分析时，汇集了针对所有插补数据集的参数估计，因此提供的估计结果通常比单个插补更为准确。

2、缺失值分析：提供了略微不同的描述性工具集，用以分析缺失数据（尤其是Little’sMCAR检验），并包括多种单一插补方法。注意，多重插补通常被认为优于单一插补。

二、缺失值分析（分析-缺失值分析）

缺失值分析有助于解决由不完整的数据造成的若干问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同，则结果将被误导。此外，缺失的数据还可能降低所计算的统计量的精度，因为计算时的信息比原计划的信息要少。另一个问题是，很多统计过程背后的假设都基于完整的个案，而缺失值可能使所需的理论复杂化。

1、示例。在评估白血病治疗方式时，将测量几个变量。但是，并不是针对每个患者都进行所有的测量。缺失数据的模式以表格形式显示出来，表现为随机的。EM分析用于估计均值、相关性和协方差。它还用来确定数据正在随机完全缺失。缺失值然后将由归因值替换，并保存到新的数据文件中以供进一步分析。

2、统计量。单变量统计量，包括非缺失值个数、均值、标准差、缺失值个数以及极值个数。使用列表法、成对法、EM法或回归法的估计均值、协方差矩阵以及相关性矩阵。对EM结果进行的Little的MCAR检验。按各种方法进行的均值总计。对于按缺失和非缺失值定义的组：t检验。对于所有变量：按个案与变量显示的缺失值模式。

3、数据。数据可以是分类数据或定量数据（刻度或连续）。尽管如此，您只能为定量变量估计统计数据并插补缺失数据。对于每个变量，必须将未编码为系统缺失值的缺失值定义为用户缺失值。例如，如果将对问卷项的回答不知道编码为5，并且您希望将其视为缺失，则对于此项应将5编码为用户缺失值。

4、频率权重。此过程接受频率（复制）权重。忽略复制权重为负值或零值的个案。非整数权重被截断。

5、假设。列表法、成对法和回归法估计都基于这样的假设：缺失值的模式不依赖于数据值。（此条件又称为完全随机缺失，即MCAR。）因此，当数据为MCAR时，所有估计方法（包括EM法）提供相关性和协方差的一致无偏估计。违反MCAR假设可能导致由列表法、成对法和回归法生成的有偏差的估计。如果数据不是MCAR，则您需要使用EM估计。

6、相关过程。很多过程都允许您使用列表或成对估计。“线性回归和因子分析”允许用均值替换缺失值。预测附加模块提供了几种方法，可用于按时间序列替换缺失值。

二、估计统计量与插补缺失值（分析-缺失值分析）

您可以使用列表法（仅限完整个案）、成对法、EM（期望最大化）法和/或回归法选择估计均值、标准差、协方差和相关性。您还可以选择插补缺失值（估计替换值）。注意，在解决缺失值问题方面，多重插补通常被认为优于单一插补。Little’s MCAR检验对于确定是否需要进行插补方面仍然有效。

1、列表法：此方法仅使用完整个案。一旦任何分析变量具有缺失值，计算中将忽略该个案。

2、成对法：此方法参见分析变量对，并只有当其在两种变量中都具有非缺失值时才使用个案。频率、均值以及标准差是针对每对分别计算的。由于忽略个案中的其它缺失值，两个变量的相关性与协方差不取决于任何其它变量的缺失值。

3、EM法：此方法假设一个部分缺失数据的分布并基于此分布下的可能性进行推论。每个迭代都包括一个E步骤和一个M步骤。在给定观察值和当前参数估计值的前提下，E步骤查找“缺失”数据的条件期望值。这些期望值将替换“缺失”数据。在M步骤中，即使填写了缺失数据，也将计算参数的最大似然估计值。“缺失”包含在引号中，因为缺失值不是直接填写的。而其函数用于对数似然。

用于检验值是否完全随机丢失（MCAR）的Roderick J. A. Little卡方统计量作为EM矩阵的脚注印刷。对于此检验，原假设就是数据完全随机缺失且0.05水平的p值显著。若值小于0.05，则数据将不会完全随机缺失。数据可能随机缺失（MAR）或不随机缺失（NMAR）。您无法假设一个或其它数据缺失，而是需要分析数据以确定数据是如何缺失的。

4、回归法：此方法计算多个线性回归估计值并具有用于通过随机元素增加估计值的选项。对于每个预测值，其过程可以从一个随机选择的完整个案中添加一个残差，或者从t分布中添加一个随机正态偏差，一个随机偏差（通过残差均值方的平方根测量）。

推荐学习书籍
《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0