2018-10-29
阅读量:
848
什么是类不平衡问题?
什么是类不平衡问题?
这是机器学习中的问题,其中一类数据的总数(正数)远小于另一类数据的总数(负数)。
为什么这是一个问题?
大多数机器学习算法在每个类的实例数大致相等时效果最佳。当一个类的实例数远远超过另一个类时,会出现问题。下面以一个例子来说明这一点。
给定交易数据的数据集,我们想知道哪些是欺诈性的,哪些是真实的。现在,如果欺诈性交易发生,电子商务公司的成本很高,因为这会影响我们的客户对我们的信任,并且会花费我们的钱。因此,我们希望捕获尽可能多的欺诈交易。
如果存在由10000个真实交易和10个欺诈交易组成的数据集,则分类器将倾向于将欺诈交易分类为真实交易。原因可以通过数字轻松解释。假设机器学习算法有两个可能的输出如下:
模型1将10个欺诈性交易中的7个分类为真实交易,将10000个真实交易中的10个分类为欺诈性交易。
模型2将10个欺诈性交易中的2个分类为真实交易,将10000个真实交易中的100个分类为欺诈性交易。
如果分类器的性能是由错误的数量决定的,那么显然模型1更好,因为它总共只有17个错误而模型2犯了102个错误。但是,由于我们希望尽量减少发生的欺诈性交易的数量,我们应该选择模型2而不是只对错误交易进行2次错误分类。当然,这可能是以更多真正的交易被归类为欺诈性交易为代价的,但这将是我们现在可以承担的成本。无论如何,一般的机器学习算法只会挑选模型1而不是模型2,这是一个问题。实际上,这意味着我们会让许多欺诈性交易通过,尽管我们可以通过使用模型2来阻止它们。这转化为不满意的客户和公司损失的金钱。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论