2019-01-25
阅读量:
1143
样本标签分布不均匀怎么办?
在样本抽样的过程中,有时候会因为样本标签的分布不均匀影响模型的判断。
假使有1000个样本,分为2类(0,1)。
样本为0的标签为:950个,样本为1的标签为:50个。
这样的样本会因为样本标签为1 的数量过少而过度依赖导致过拟合。
所以采取的办法有2种:过采样和欠采样。
过采样:
样本为1的只有50个,将在样本为1 的数据邻近找去剩余的900个样本点补全。使得样本(0,1)的数量由(950,50)变为(950,950)。
欠采样:
样本为0的是950个,将在样本为0 的数据中抽取50个,使得样本(0,1)的数量由(950,50)变为 (50,50)






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论