2020-03-10
阅读量:
1080
无监督算法如何评估
无监督学习算法不做出预测,也不存在 y 值,因此无法直接根据模型预测的准确率进行评估。以聚类算法为例,我们虽然使用“肘部法则”来做目测,选出最合适的均值,但还是需要一个统计量来衡量。
- Ci是第i个簇
- p是Ci中的样本点
- mi是Ci的质心(Ci中所有样本的均值)
- SSE是所有样本的聚类误差,代表了聚类效果的好坏。
轮廓系数(silhouette coefficient) 是一个表示聚类分离的变量,计算样本i到同簇其他样本的平均距离ai。ai 越小,说明样本i越应该被聚类到该簇。将ai 称为样本i的簇内不相似度。簇C中所有样本的a i 均值称为簇C的簇不相似度。
计算样本i到其他某簇Cj 的所有样本的平均距离bij,称为样本i与簇Cj 的不相似度。定义为样本i的簇间不相似度:bi =min{bi1, bi2, ..., bik}
bi越大,说明样本i越不属于其他簇。根据样本i的簇内不相似度a i 和簇间不相似度b i ,定义样本i的轮廓系数,轮廓系数取值在 -1 到 1 之间,可以用来定性地分析聚类算法的优度,越接近于1说明效果越好。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论