2019-02-15
阅读量:
651
python如何拆分数据集
所有机器学习模型的一个重要方面是确定它们的准确性。现在,为了确定它们的准确性,可以使用给定的数据集训练模型,然后使用该模型预测相同数据集的响应值,从而找到模型的准确性。
但这种方法有几个缺陷,如:
- 目标是估计模型在样本外数据上的可能性能。
- 最大化训练准确性奖励过于复杂的模型,这些模型不一定会推广我们的模型。
- 不必要的复杂模型可能会过度拟合训练数据。
更好的选择是将我们的数据分成两部分:第一部分用于训练我们的机器学习模型,第二部分用于测试我们的模型。
总结一下:
- 将数据集拆分为两部分:训练集和测试集。
- 在训练集上训练模型。
- 在测试集上测试模型,并评估我们的模型的效果。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论