为什么填补数据得出的结果比原数据集的要好？

shauna570392

2020-02-24 阅读量: 1080

一、问题描述

在选择哪个col 先来预测的问题，预测得到的值的误差难道比手填0的值更大嘛？

首先预测col 1 有3% 时，col 30%的缺失值先手动填补0，再去预测col 1 。

二、问题解答

在上面的图话，我们手动填补0，预测的结果放入col里面，再进行下一步计算。会有误差

下面的图，里面预测得到的col3和col2里面，也是先手动填补0，再来预测，手动填补0会有误差，预测也会有误差，误差+误差再进行预测误差就变的更加大了，并且col3，col2由于本来缺失值就多，所以预测的误差就更加大。

先预测col1的话，本来缺失的数据量就最小，数据量最小的话，那误差就相对来说要小一点，因为col1里面本来就没什么缺失值，预测的过程中相对来说误差少一些。

然后col1预测好之后，再来对缺失比率大一点点的col2进行预测，当然这个时候col1就不用填补成0了，预测的col2的时候填补的0的个数也就减少了

如果反过来col3缺失值本来就很多，填补0之后预测出来的错误的信息本来占比就很大，然后再重错误信息占比很大的这一列再去预测其他的col会大致错误信息被进一步的放大。不是，是就算手动填补的0个数少一点，但是这个是后我们预测的量大，预测的量大，不确定性就大。如果先对col1来预测，就算预测的不准确，但是量很少很少，总体上来看都对后面其它列的预测就没什么太大的影响。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子