291294878

2018-10-23   阅读量: 586

数据分析师 统计学

如何解决类别不平衡问题?

扫码加入数据分析学习群

有些情况下训练集中的样本分布很不平衡,例如在肿瘤检测等问题中,正样本的个数往往非常的少。

从线性分类器的角度,在用 y = wx +b 对新样本进行分类的时候,事实上在用预测出的y值和一个y值进行比较,例如常常在y>0.5的时候判为正例,否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值,阈值0.5恰好表明分类器认为正反的可能性相同。

在样本不均衡的情况下,应该是分类器的预测几率高于观测几率就判断为正例,因此应该是 y/1-y > m+/m- 时预测为正例,这种策略称为rebalancing。但是训练集并不一定是真实样本总体的无偏采样,通常有三种做法,一种是对训练集的负样本进行欠采样,第二种是对正例进行升采样,第三种是直接基于原始训练集进行学习,在预测的时候再改变阈值,称为阈值移动。

注意过采样一般通过对训练集的正例进行插值产生额外的正例,而欠采样将反例划分为不同的集合供不同的学习器使用。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子