2018-10-29
阅读量:
1206
如何判断机器学习算法哪个更好?
为了告诉机器学习算法(或研究人员)模型2优于模型1,我们需要更好的指标,而不仅仅是计算错误的数量。
我们介绍了真阳性,真阴性,假阳性和假阴性的概念:
真阳性(TP rate) - 一个积极的例子,被 正确归类为阳性
真阴性(TN rate) - 一个阴性的例子,被 正确分类为 阴性
误报(FP rate) - 一个否定的例子, 但被错误地归类为正面
假阴性(FN rate) - 一个积极但被错误归类为消极的例子
基于此以上。我们还将得到以下真实阳性率,真实阴性率,假阳性率,假阴性率:
使用这些新指标,让我们将其与计算上述示例所犯错误数量的传统指标进行比较。首先,我们将使用旧指标来计算出错的次数(错误):
如上所示,模型1看起来比模型2(1.0%误差)具有更低的误差(0.1%误差),但我们知道模型2是更好的,因为它产生更少的假阴性(FN)(最大化真阳性( TP))。现在让我们看看模型1和模型2的性能与新指标的相似之处:
现在,我们可以看到模型1的假阴性率为70%,而模型2的假阴性率仅为20%,这显然是更好的分类器。这就是我们应该教育机器学习算法(或我们)使用它以便允许它选择更好的算法。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论