热线电话:13121318867

登录
2018-11-28 阅读量: 1225
类别型数据缺失处理方法

类别型数据缺失处理方法有:

(1)直接忽略法。例如:当数据有缺失值时,则将整笔数据删除。直接忽略法是处理数据缺失最简单的方法,一般的,当缺失数据占整个字段所有数据的比例过大时(>50%),便可直接删除。直接忽略法适用于搜集的数据量很多,而缺失数据只占一小部分的情况。这种方法也有其缺点,即当数据缺失比例很可观时,会造成大量数据流失数据的目标字段的值是空值的时候,使得数据分析结果不准确。

(2)人工填补法。人工填补法即使用人力再收集缺失的数据。例如当某会员数据的生日属性有缺失,可打电话询问该会员,以取得其生日并加以填补。通常这种方法很费时,因此当数据集很大且缺失值很多的时候,该方法可能行不通。

(3)自动填补法。对同一个属性的所有缺失值,用一个事先确定好的值来填补,例如:都用“Unknown”来填补。但当一个属性的缺失值较多的时候,该方法会误导挖掘过程。也可以填入该属性的众数(Mode),如下表中Risk的众数是high,所以缺失值可以填补为high,但是填补众数的方法不够客观。我们也可用分群的方式,分类求众数,比如credit与Risk之间存在相关性,因为在下表中我们可以看出credit中有5个green,而其中4个green都对应着Risk=high,所以当credit=green时,Risk更有可能是high,所以在第二行的Risk可以被填补为high,这样的填补方法更加准确。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子