热线电话:13121318867

登录
2020-07-27 阅读量: 794
7月27日

#y的缺失在百分十几以上必须要模型填补,超过20%则比较严重
#x的缺失在20到50可以容忍,达到50视为缺失严重,缺失达到70-80%则没有必要填补
一般模型填补比较准,中位数较为不准,时间不允许,使用中位数
模型2天可以跑完,算是可以接受
y缺失有点多,使用模型来填
模型准确度每提高一个百分点,都是非常可贵.不要小看百分之一.
MissForest 无脑选用,随机森林
KNNImputer 填充比较慢
随机森林叶子数量定在样本数的5%-10%性价比高
n_jobs 进程,线程设置,-1调用所有所有资源
模型三种状态,欠拟合,拟合,过拟合,模型准确度达到96%以上,证明为过拟合,误差也被学习进去了.
模型精确度比中位数高出2-3个百分比就行了
<多重差补>
精确第一,时效第二

30.8409
0
关注作者
收藏
评论(0)

发表评论

暂无数据