PGC123

2020-03-17   阅读量: 2408

大数据 数据分析师 机器学习

轮廓系数中总体、样本轮廓系数分别是啥意思?

扫码加入数据分析学习群

轮廓系数中总体、样本轮廓系数分别是啥意思?

答:轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。

假设我们已经通过一定算法,将待分类数据进行了聚类。常用的比如使用K-means ,将待分类数据分为了 k 个簇 。

对于簇中的每个向量。分别计算它们的轮廓系数。

对于其中的一个点 i 来说:

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)

那么 i 向量轮廓系数就为:

可见轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。

将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。

S(i) 就是样本i基于当前分类结果的轮廓系数。总体轮廓系数就是所有样本点的轮廓系数的均值。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
1.1101 1 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子