当我的样本数据不平衡的时候我的建模流程是什么样的?
学生:
那当样本不平衡的时候,我是先要划分训练集测试集,然后清洗训练集,再用训练集清洗测试集,然后再把训练集和测试集合并,再用smote方法,最后重新划分训练集和测试集,是这个流程吗?
老师:
第一步:把数据拆分成训练集和测试集合
第二步:对训练集数据进行清洗整理
第三步:查看清洗后的数据是否为平衡数据,
如果不平衡需要用什么方法(过采样或者欠采样)将数据变为平衡数据
第四步:用上一步整理好的平衡数据进行建模
第五步:对测试集数据进行清洗整理(参考训练集数据的清洗过程,但可能会略有不同),
注意不需要对测试数据进行平衡处理的,这点一定要注意
第六步:用第四部建立的模型对第5步处理好的测试数据进行预测
学生:
恍然大悟