热线电话:13121318867

登录
2019-01-25 阅读量: 1143
样本标签分布不均匀怎么办?

在样本抽样的过程中,有时候会因为样本标签的分布不均匀影响模型的判断。

假使有1000个样本,分为2类(0,1)。

样本为0的标签为:950个,样本为1的标签为:50个。

这样的样本会因为样本标签为1 的数量过少而过度依赖导致过拟合。

所以采取的办法有2种:过采样和欠采样。

过采样:

样本为1的只有50个,将在样本为1 的数据邻近找去剩余的900个样本点补全。使得样本(0,1)的数量由(950,50)变为(950,950)。

欠采样:

样本为0的是950个,将在样本为0 的数据中抽取50个,使得样本(0,1)的数量由(950,50)变为 (50,50)

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子