2020-07-16
阅读量:
866
缺失值要怎么处理比较好?
那要看业务逻辑和缺失值占比,目标保证对预测结果影响越小越好
1. 占比较多:如80%以上,删除缺失值所在列(如果对字段有特殊需求,那就删除样本,前提是样本足够多)
2. 占比一般:30%-80%,将缺失值作为单独的类
3. 占比少:10%-30% , 多重插补(通过特征进行相互间的预测)随机森林回归填补
4. 占比较少:10%以上,单一值替换:中位数、均值、众数
5. 在决策树中可以将缺失值处理融合到算法中:按比重分配






评论(0)


暂无数据
推荐帖子
2条评论
3条评论
4条评论