热线电话:13121318867

登录
2020-05-23 阅读量: 1178
Python机器学习中数据集拆分训练集和测试集

可将单个数据集拆分为一个训练集和一个测试集。

训练集 - 用于训练模型的子集。

测试集 - 用于测试训练后模型的子集。

训练集的规模越大,模型的学习效果越好。

测试集规模越大,对于评估指标的信心越充足,置信区间就越窄。

在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理。

拆分数据的一些注意事项:

两个数据集必须相互独立。

确保先进行随机化,再拆分数据。

如果数据集规模很小,可能需要执行诸如交叉验证之类较为复杂的操作。

确保测试集满足以下两个条件:

规模足够大,可产生具有统计意义的结果。

能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。

45.2479
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子