2020-05-23
阅读量:
1178
Python机器学习中数据集拆分训练集和测试集
可将单个数据集拆分为一个训练集和一个测试集。
训练集 - 用于训练模型的子集。
测试集 - 用于测试训练后模型的子集。

训练集的规模越大,模型的学习效果越好。
测试集规模越大,对于评估指标的信心越充足,置信区间就越窄。
在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理。
拆分数据的一些注意事项:
两个数据集必须相互独立。
确保先进行随机化,再拆分数据。
如果数据集规模很小,可能需要执行诸如交叉验证之类较为复杂的操作。
确保测试集满足以下两个条件:
规模足够大,可产生具有统计意义的结果。
能代表整个数据集。换言之,挑选的测试集的特征应该与训练集的特征相同。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论