热线电话:13121318867

登录
2018-10-29 阅读量: 1029
如何缓解类不平衡问题?

现在知道类不平衡问题是什么以及它为什么是一个问题,我们需要知道如何处理这个问题。

我们可以将方法粗略地分为两大类:基于抽样的方法和基于成本函数的方法。

基于成本函数的方法

基于成本函数的方法背后的直觉是,如果我们认为一个假阴性比一个假阳性更差,我们将计算一个假阴性,例如100个假阴性。例如,如果1个假阴性与100个假阳性一样昂贵,则机器学习算法将尝试与假阳性相比产生更少的假阴性(因为它更便宜)。例如,在SVM的情况下,通用公式为:

其中w是超平面的法向量。并且E [i]是每个数据实例的错误,C是成本常数,n是数据实例的数量。要为假阴性和误报分配不同的成本函数,我们可以将公式修改为如下:

其中C + 是阳性病例的成本常数,C-是阴性病例的成本常数,n +是阳性病例的总数,n-是阴性病例的总数。如果不深入研究上面的公式,这只是一个例子,可以指出不同的成本与正面和负面类别。

基于抽样的方法

这大致可分为三类:

  • 过采样,通过添加更多的少数类,因此它对机器学习算法有更大的影响
  • 通过删除一些大多数类来进行欠采样,因此它对机器学习算法的影响较小
  • 混合,过采样和欠采样的混合

然而,这些方法具有明显的缺点,如下所述。

欠抽样

通过抽样,我们可以冒险删除一些更具代表性的多数类实例,从而丢弃有用的信息。这可以说明如下:

这里绿线是我们想要的理想决策边界,蓝色是实际结果。左侧是仅使用通用机器学习算法而不使用欠采样的结果。在右边,我们对负面类进行了欠采样,但删除了一些信息负面类,并导致蓝色决策边界倾斜,导致一些负面类被错误地归类为正类。

过采样

通过过采样,只是复制少数类可能导致分类器过度拟合几个例子,如下所示:

左侧是过采样之前,右侧是过采样。在右侧,厚的正号表示该数据实例有多个重复的副本。然后,机器学习算法多次看到这些情况,因此设计为特别地过度拟合这些示例,导致如上所述的蓝线边界。

混合方法

通过结合欠采样和过采样方法,我们获得了上述两种方法的优点,但也存在缺点,这仍然是一种权衡。

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子