啊啊啊啊啊吖

2018-11-26   阅读量: 936

数据分析师 R语言 数据挖掘

缺失值处理

扫码加入数据分析学习群

从统计上说, 缺失的数据可能会产生有偏估计, 从而使样本数据不能很

好地代表总体, 而现实中绝大部分数据都包含缺失值, 因此如何处理缺失值

很重要。

一般来说, 缺失值的处理包括两个步骤, 即缺失数据的识别和缺失值处

理。 在R语言中缺失值通常以NA表示, 可以使用函数is.na() 判断缺失值是

否存在, 另外函数complete.cases() 可识别样本数据是否完整从而判断缺失

情况。 在对是否存在缺失值进行判断之后需要进行缺失值处理, 常用的方法

有删除法、 替换法、 插补法等。

删除法

删除法是最简单的缺失值处理方法, 根据数据处理的不同角度可分为删

除观测样本、 删除变量两种。 删除观测样本又称行删除法, 在R中可通过

na.omit() 函数移除所有含有缺失数据的行, 这属于以减少样本量来换取信

息完整性的方法, 适用于缺失值所占比例较小的情况; 删除变量适用于变量

有较大缺失且对研究目标影响不大的情况, 意味着要删除整个变量, 这在R

中可通过data[, -p] 来实现, 其中data表示目标数据集, p表示缺失变量所

在的列。

替换法

变量按属性可分为数值型和非数值型, 二者的处理办法不同: 如果缺失

值所在变量为数值型的, 一般用该变量在其他所有对象的取值的均值来替换

变量的缺失值; 如果为非数值型变量, 则使用该变量其他全部有效观测值的

中位数或者众数进行替换。

插补法

删除法虽然简单易行, 但会存在信息浪费的问题且数据结构会发生变

动, 以致最后得到有偏的统计结果, 替换法也有类似问题。 在面对缺失值问

题, 常用的插补法有回归插补、 多重插补等。 回归插补法利用回归模型, 将

需要插值补缺的变量作为因变量, 其他相关变量作为自变量, 通过回归函数

lm() 预测出因变量的值来对缺失变量进行补缺; 多重插补法的原理是从一

个包含缺失值的数据集中生成一组完整的数据, 如此进行多次, 从而产生缺

失值的一个随机样本, R中的mice函数包可以用来进行多重插补。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子