类别型数据缺失处理方法

zxq997

2018-11-28 阅读量: 1606

类别型数据缺失处理方法

类别型数据缺失处理方法有：

（1）直接忽略法。例如：当数据有缺失值时，则将整笔数据删除。直接忽略法是处理数据缺失最简单的方法，一般的，当缺失数据占整个字段所有数据的比例过大时（>50%），便可直接删除。直接忽略法适用于搜集的数据量很多，而缺失数据只占一小部分的情况。这种方法也有其缺点，即当数据缺失比例很可观时，会造成大量数据流失数据的目标字段的值是空值的时候，使得数据分析结果不准确。

（2）人工填补法。人工填补法即使用人力再收集缺失的数据。例如当某会员数据的生日属性有缺失，可打电话询问该会员，以取得其生日并加以填补。通常这种方法很费时，因此当数据集很大且缺失值很多的时候，该方法可能行不通。

（3）自动填补法。对同一个属性的所有缺失值，用一个事先确定好的值来填补，例如：都用“Unknown”来填补。但当一个属性的缺失值较多的时候，该方法会误导挖掘过程。也可以填入该属性的众数（Mode），如下表中Risk的众数是high，所以缺失值可以填补为high，但是填补众数的方法不够客观。我们也可用分群的方式，分类求众数，比如credit与Risk之间存在相关性，因为在下表中我们可以看出credit中有5个green，而其中4个green都对应着Risk=high，所以当credit=green时，Risk更有可能是high，所以在第二行的Risk可以被填补为high，这样的填补方法更加准确。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子