如何解决类别不平衡问题？

291294878

2018-10-23 阅读量: 1129

如何解决类别不平衡问题？

有些情况下训练集中的样本分布很不平衡，例如在肿瘤检测等问题中，正样本的个数往往非常的少。

从线性分类器的角度，在用 y = wx +b 对新样本进行分类的时候，事实上在用预测出的y值和一个y值进行比较，例如常常在y>0.5的时候判为正例，否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值，阈值0.5恰好表明分类器认为正反的可能性相同。

在样本不均衡的情况下，应该是分类器的预测几率高于观测几率就判断为正例，因此应该是 y/1-y > m+/m- 时预测为正例，这种策略称为rebalancing。但是训练集并不一定是真实样本总体的无偏采样，通常有三种做法，一种是对训练集的负样本进行欠采样，第二种是对正例进行升采样，第三种是直接基于原始训练集进行学习，在预测的时候再改变阈值，称为阈值移动。

注意过采样一般通过对训练集的正例进行插值产生额外的正例，而欠采样将反例划分为不同的集合供不同的学习器使用。