扫码加入数据分析学习群
ROC 曲线是 Receiver Operating Characteristic Curve 的简称 ,
中文名为“受试者工作特征曲线” 。 ROC 曲线源于军事领域,而后在
医学领域应用甚广, “受试者工作特征曲线 ” 这一名称也正是来自于
医学领域 。
ROC 曲线的横坐标为假阳性率( False Positive Rate, FPR ),纵
坐标为真阳性率( True Positive Rate, TPR ) 。
FPR=FP/N
TPR=TP/P
上式中, P 是真实的正样本的数量 , N是真实的负样本的数量 , TP 是
P 个正样本中被分类器预测为正样本的个数, FP 是 N 个负样本中被分
类器预测为正样本的个数。
只看定义确实高点绕 , 为了更重观地说明这个问题,我们举一个
医院诊断病人的例子 。
假设有10位疑似癌症患者,其中有 3 位很不幸
确实患了癌症( P=3 ),另外 7 位不是癌症患者( N=7 ) 。医 院对这
10 位疑似患者做了诊断,诊断出 3 位癌症患者,其中有 2 位确实是真
正的患者( TP=2 ) 。 那么真阳性率 TPR=TP/P=2/3 ,对于 7 位非癌症
患者来说, 有一位很不幸被误诊为癌症患者(FP= 1),那么假阳性率
FPR=FP/N= 1/7 。 对于“该医院”这个分类器来说,这组分类结果就对
应 ROC 曲线上的1个点( 1/7, 2/3 )。