詹惠儿

2021-02-04   阅读量: 530

Python

为什么要先划分数据集再进行归一化处理呢?

扫码加入数据分析学习群

问:

为什么要先划分数据集再进行归一化处理呢?


答:

根据归一化的处理手段,我们是使用数据中的最小值和极差在对数据进行压缩处理,如果我们在全数据集上进行归一化,那最小值和极差的选取是会参考测试集中的数据的状况的。因此,当我们归一化后,无论我们如何分割数据,都会由一部分测试集的信息被 "泄露" 给训练集(当然,也有部分训练集的信息被泄露给了测试集,但我们不关心这个),这会使得我们的模型效果被高估。

在现实业务中,我们只知道训练集的数据,不了解测试集究竟会长什么样,所以我们要利用训练集上的最小值和极差来归一化测试集。


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
57.1429 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子