缺失值处理_CDA答疑社区

热线电话：13121318867

登录

啊啊啊啊啊吖

2018-11-26 阅读量: 1204

缺失值处理

从统计上说，缺失的数据可能会产生有偏估计，从而使样本数据不能很

好地代表总体，而现实中绝大部分数据都包含缺失值，因此如何处理缺失值

很重要。

一般来说，缺失值的处理包括两个步骤，即缺失数据的识别和缺失值处

理。在R语言中缺失值通常以NA表示，可以使用函数is.na（）判断缺失值是

否存在，另外函数complete.cases（）可识别样本数据是否完整从而判断缺失

情况。在对是否存在缺失值进行判断之后需要进行缺失值处理，常用的方法

有删除法、替换法、插补法等。

删除法

删除法是最简单的缺失值处理方法，根据数据处理的不同角度可分为删

除观测样本、删除变量两种。删除观测样本又称行删除法，在R中可通过

na.omit（）函数移除所有含有缺失数据的行，这属于以减少样本量来换取信

息完整性的方法，适用于缺失值所占比例较小的情况；删除变量适用于变量

有较大缺失且对研究目标影响不大的情况，意味着要删除整个变量，这在R

中可通过data［， -p］来实现，其中data表示目标数据集， p表示缺失变量所

在的列。

替换法

变量按属性可分为数值型和非数值型，二者的处理办法不同：如果缺失

值所在变量为数值型的，一般用该变量在其他所有对象的取值的均值来替换

变量的缺失值；如果为非数值型变量，则使用该变量其他全部有效观测值的

中位数或者众数进行替换。

插补法

删除法虽然简单易行，但会存在信息浪费的问题且数据结构会发生变

动，以致最后得到有偏的统计结果，替换法也有类似问题。在面对缺失值问

题，常用的插补法有回归插补、多重插补等。回归插补法利用回归模型，将

需要插值补缺的变量作为因变量，其他相关变量作为自变量，通过回归函数

lm（）预测出因变量的值来对缺失变量进行补缺；多重插补法的原理是从一

个包含缺失值的数据集中生成一组完整的数据，如此进行多次，从而产生缺

失值的一个随机样本， R中的mice函数包可以用来进行多重插补。

0.0000

0

1

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子