如何缓解类不平衡问题？_CDA答疑社区

热线电话：13121318867

登录

809669515

2018-10-29 阅读量: 1425

如何缓解类不平衡问题？

现在知道类不平衡问题是什么以及它为什么是一个问题，我们需要知道如何处理这个问题。

我们可以将方法粗略地分为两大类：基于抽样的方法和基于成本函数的方法。

基于成本函数的方法

基于成本函数的方法背后的直觉是，如果我们认为一个假阴性比一个假阳性更差，我们将计算一个假阴性，例如100个假阴性。例如，如果1个假阴性与100个假阳性一样昂贵，则机器学习算法将尝试与假阳性相比产生更少的假阴性（因为它更便宜）。例如，在SVM的情况下，通用公式为：

其中w是超平面的法向量。并且E [i]是每个数据实例的错误，C是成本常数，n是数据实例的数量。要为假阴性和误报分配不同的成本函数，我们可以将公式修改为如下：

其中C + 是阳性病例的成本常数，C-是阴性病例的成本常数，n +是阳性病例的总数，n-是阴性病例的总数。如果不深入研究上面的公式，这只是一个例子，可以指出不同的成本与正面和负面类别。

基于抽样的方法

这大致可分为三类：

过采样，通过添加更多的少数类，因此它对机器学习算法有更大的影响
通过删除一些大多数类来进行欠采样，因此它对机器学习算法的影响较小
混合，过采样和欠采样的混合

然而，这些方法具有明显的缺点，如下所述。

欠抽样

通过抽样，我们可以冒险删除一些更具代表性的多数类实例，从而丢弃有用的信息。这可以说明如下：

这里绿线是我们想要的理想决策边界，蓝色是实际结果。左侧是仅使用通用机器学习算法而不使用欠采样的结果。在右边，我们对负面类进行了欠采样，但删除了一些信息负面类，并导致蓝色决策边界倾斜，导致一些负面类被错误地归类为正类。

过采样

通过过采样，只是复制少数类可能导致分类器过度拟合几个例子，如下所示：

左侧是过采样之前，右侧是过采样。在右侧，厚的正号表示该数据实例有多个重复的副本。然后，机器学习算法多次看到这些情况，因此设计为特别地过度拟合这些示例，导致如上所述的蓝线边界。

混合方法

通过结合欠采样和过采样方法，我们获得了上述两种方法的优点，但也存在缺点，这仍然是一种权衡。

0.0000

0

1

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子