热线电话:13121318867

登录
2020-02-24 阅读量: 797
为什么填补数据得出的结果比原数据集的要好?

一、问题描述

在选择哪个col 先来预测的问题,预测得到的值的误差难道比手填0的值更大嘛?

首先预测col 1 有3% 时,col 30%的缺失值先手动填补0,再去预测col 1 。

二、问题解答

在上面的图话,我们手动填补0,预测的结果放入col里面,再进行下一步计算。会有误差

下面的图,里面预测得到的col3和col2里面,也是先手动填补0,再来预测,手动填补0会有误差,预测也会有误差,误差+误差再进行预测误差就变的更加大了,并且col3,col2由于本来缺失值就多,所以预测的误差就更加大。

先预测col1的话,本来缺失的数据量就最小,数据量最小的话,那误差就相对来说要小一点,因为col1里面本来就没什么缺失值,预测的过程中相对来说误差少一些。

然后col1预测好之后,再来对缺失比率大一点点的col2进行预测,当然这个时候col1就不用填补成0了,预测的col2的时候填补的0的个数也就减少了

如果反过来col3缺失值本来就很多,填补0之后预测出来的错误的信息本来占比就很大,然后再重错误信息占比很大的这一列再去预测其他的col会大致错误信息被进一步的放大。不是,是就算手动填补的0个数少一点,但是这个是后我们预测的量大,预测的量大,不确定性就大。如果先对col1来预测,就算预测的不准确,但是量很少很少,总体上来看都对后面其它列的预测就没什么太大的影响。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子