登录
首页大数据时代关于混淆矩阵(Confusion Matrix)概念的分析和理解
关于混淆矩阵(Confusion Matrix)概念的分析和理解
2020-07-08
收藏

混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。

混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是否将样本的类别给混淆了(也就是一个class被预测成另一个class)。

混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结,现在假设有一个用来对猫(cats)、狗(dogs)、兔子(rabbits)进行分类的系统,共有 27 个动物样本:8只猫, 6条狗, 13只兔子。混淆矩阵如下图:

在预测分析中,混淆矩阵,表现为由false positives,false negatives,true positives和true negatives而组成的两行两列的表格。它允许我们做出除了正确率之外的,更多的分析。

说明一下概念:

真阳性,即 True Positive(TP): 真实为0.预测也为0

真阴性,即 False Negative(FN): 真实为0.预测为1

假阳性 ,即False Positive(FP): 真实为1.预测为0

假阴性,即 True Negative(TN): 真实为1.预测也为1

混淆矩阵延伸出的各个评价指标:

1.正确率(Accuracy):被正确分类的样本比例或数量

Accuracy=(TP+TN)/Total

2.错误率(Misclassification/Error Rate):被错误分类的样本比例或数量

Misclassification/Error Rate)=(FP+FN)/Total

3.真阳率(True Positive Rate)也叫敏感度(sensitivity)或召回率(recall):分类器预测为正例的样本占实际正例样本数量的比例,描述了分类器对正例类别的敏感程度。

True Positive Rate=TP/ actual yes

4.假阳率(False Positive Rate):分类器预测为正例的样本占实际负例样本数量的比例。

False Positive Rate=FP/actual no

5.特异性(Specificity):真实为1的准确率

Specificity=TN/actual no

6. 精度(Precision):在所有判别为正例的结果中,真正正例所占的比例,即预测为0的准确率。

Precision=TP/predicted yes

7.流行程度(Prevalence):正例在样本中所占比例。

Prevalence=Actual Yes/Total

数据分析咨询请扫描二维码

客服在线
立即咨询