2020-03-10
阅读量:
1879
缺失值常见的填充方法
(1)填充固定值
选取某个固定值/默认值填充缺失值。
(2)填充均值
对每一列的缺失值,填充当列的均值。
(3)填充中位数
对每一列的缺失值,填充当列的中位数。
(4)填充众数
对每一列的缺失值,填充当列的众数。由于存在某列缺失值过多,众数为nan的情况,因此这里取的是每列删除掉nan值后的众数。
(5)填充上下条的数据
对每一条数据的缺失值,填充其上下条数据的值。
(6)填充插值得到的数据
用插值法拟合出缺失的数据,然后进行填充。
(7)填充KNN数据
填充近邻的数据,先利用knn计算临近的k个数据,然后填充他们的均值。(安装fancyimpute)除了knn填充,fancyimpute还提供了其他填充方法。
(8)填充模型预测的值
把缺失值作为新的label,建立模型得到预测值,然后进行填充。这里选择某个缺失值数量适当的特征采用随机森林RF进行拟合,其他缺失特征采用均值进行填充。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论