kejiayuan0806

2018-10-18   阅读量: 1117

数据分析师 统计学 数据挖掘

模型评价指标有哪些

扫码加入数据分析学习群

分类模型评价指标:精确率、正确率、召回率、F值、ROC、AUC等指标。

精确率(precision)是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本,也就是precision=TP/(TP+FP)。

召回率(recall)是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了,也就是recall=TP/(TP+FN)。

一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。

准确率(accuracy)是预测对的数量占所有样本的比例,也就是accuracy= (TP+TN)/(TP+FN+FP+TN)。

F值是精确率和召回率的调和平均值,精确率和召回率都高的情况下,F值也会高。也就是2/F=1/P+1/R,即F=P*R/2(P+R)=2TP/(2TP+FP+FN)。

评估一个分类器的好坏可以设一个阈值,大于这个值的为正类,小于这个值为负类。如果我们减小这个阀值,那么更多的样本会被识别为正类。这会提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了形象化这一变化,在此引入 ROC,ROC 关注两个指标:true positive rate:TPR=TP/(TP+FN),false positive rate:FPR=FP/(FP+TN)。TPR 代表能将正例分对的概率,FPR 代表将负例错分为正例的概率。在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off2。

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC值越大的分类器,正确率越高。

既然已经有那么多的评价指标,为什么还要使用ROC和AUC呢?

因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡现象,即负样本比正样本多很多或者少很多。

回归模型的评价指标:平均绝对误差、平均平方误差。

平均绝对误差MAE(Mean Absolute Error)又被称为 l1 范数损失:

平均平方误差MSE(Mean Squared Error)又被称为 l2范数损失:

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子