热线电话:13121318867

登录
2020-07-16 阅读量: 866
缺失值要怎么处理比较好?

那要看业务逻辑和缺失值占比,目标保证对预测结果影响越小越好

1. 占比较多:如80%以上,删除缺失值所在列(如果对字段有特殊需求,那就删除样本,前提是样本足够多)

2. 占比一般:30%-80%,将缺失值作为单独的类

3. 占比少:10%-30% , 多重插补(通过特征进行相互间的预测)随机森林回归填补

4. 占比较少:10%以上,单一值替换:中位数、均值、众数

5. 在决策树中可以将缺失值处理融合到算法中:按比重分配


29.3368
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子