热线电话:13121318867

登录
2020-05-24 阅读量: 686
机器学习交叉验证

其基本思想是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。

交叉验证是一种模型选择的方法!(引自李航统计学习方法)可以分为以下三种:

1、简单交叉验证。即将数据按照一定比例 比如73开,分为训练集和测试集。

2、S折交叉验证。将已给数据切分为S个互不相交、大小相同的子集,将S-1个子集的数据作为训练集来训练模型,剩余的一个测试模型,重复S次,选择S次中平均测试误差最小的模型。

3、留一交叉验证。即S=n。往往在数据缺乏的时候使用。因为数据很少没法再分了!

注1:由于交叉验证是用来模型选择的,所以是将不同的模型,比如SVM,LR,GBDT等运用上述方法,然后比较误差大小,选择误差最小的模型!

注2:上述三种方法是针对数据量不充足的时候采用的交叉验证方法,如果数据量充足,一种简单的方法就是将数据分为3部分:

训练集。用来训练模型

验证集。用于模型选择

测试集。用于最终对学习方法的评估

选择验证集上有最小预测误差的模型。

注3:如果数据量为bigdata,这时候可以不用7/3开了,照样分成训练集,验证集,测试集三份。比如100万的数据量,完全可以将数据分成98:1:1,即验证集只要1万即可,测试集也只要1万即可,更多的数据用在训练集来训练模型!

1.3833
5
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子