热线电话:13121318867

登录
2019-04-17 阅读量: 724
机器学习-周志华 学习笔记

1.模型评估

在样本数为m时,既要进行训练,又要进行测试的解决方案。

1.1留出法:

将原先数据集按照一定的比例划分成训练集和测试集,常见的为2/3,4/5。

优化:可进行若干次随机划分,独立同分布进行分层采样,进行评估后取其平均值。

1.2交叉验证法:

将数据集划分成K个大小相似且互斥的子集,用K-1的子集进行训练,剩下的当做测试集。进行K次训练

当K为样本数时,称为‘留一法’,优点:结果较为准备。缺点:训练时长过长。

1.3自助采样法

进行m次随机从样本中选择一个样本加入到训练集D’中,然后将该样本放回原先数据集,最后将未出现在训练集中的样本当做测试集使用。

经过调参之后获得的较优模型,记录此时的算法及参数,用原先的数据集再次进行训练。

2.模型性能度量

2.1错误率

2.2正确率

2.3查准率:选出来的有多少是正确的(P)

2.4查全率:选出来的占所有正确的比例(R)

可通过P-R曲线对比模型好坏

若A曲线包括B曲线,则认为A的性能更好

根据平衡点进行判断

根据面积进行判读

根据需求进行判断

2.5ROC曲线

对预测的样本置信度进行排序

TP真正例 FN假反例

FP假正例 TN真反例

纵轴:真正例率 TPR: TP/(TP+FN) P

横轴:假正例率 FPR: FP/(FP+TN) 1-P

3.代价敏感矩阵

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子