登录
首页大数据时代评估机器学习模型的指标:召回率,精确率和F值
评估机器学习模型的指标:召回率,精确率和F值
2020-07-27
收藏

机器学习中、完成建模之后,我们需要对模型的效果做评价,而召回率、精确率和F值就是评估机器学习模型的三大重要指标。

一、基本概念

True Positive(真正,TP):将正类预测为正类数

True Negative(真负,TN):将负类预测为负类数

False Positive(假正,FP):将负类预测为正类数误报 (Type I error)

False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)

二、召回率

召回率,recall, 也就是正确预测为正的占全部实际为正的比例(真正正确的占所有实际为正的比例)。是针对原样本来说的,其含义是在实际为正的样本中被预测为正样本的概率。

准确率和召回率互相影响,理想状态下肯定追求两个都高,但是实际情况是两者相互“制约”:追求准确率高,则召回率就低;追求召回率高,则通常会影响准确率。

三、精确率

精确率precision,也叫查准率, 也就是正确预测为正的占全部预测为正的比例,(真正正确的占所有预测为正的比例)。针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率。

四、F值(F-Measure)

1.精确率P和召回率R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F值,也就是F-Measure(又称为F-Score)。

F-Measure是一种统计量,又称F-Score,也是精确率(Presicion)和召回率(Recall)的加权调和平均,常用于评价分类模型的好坏。

当参数α=1时,就是最常见的F1.也即

可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。

2.E值

E值表示P和R的加权平均值,当其中一个为0时,E值为1.其计算公式:

b越大,表示查准率的权重越大。

五、P-R曲线

对模型进行评估,不能仅靠精确率或者召回率,最好构建多组精确率和召回率,绘制出模型的P-R曲线。

P-R曲线的横轴是召回率,纵轴是精确率。P-R曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表当阈值最大时模型的精确率和召回率

数据分析咨询请扫描二维码

客服在线
立即咨询