291294878

2018-10-22   阅读量: 773

数据分析师 统计学

聚类算法基础知识有哪些?

扫码加入数据分析学习群

1. 层次聚类 vs 非层次聚类

– 不同类之间有无包含关系

2. 硬聚类 vs 软聚类

– 硬聚类:每个对象只属于一个类

– 软聚类:每个对象以某个概率属于每个类

3. 用向量表示对象

– 每个对象用一个向量表示,可以视为高维空间的一个点

– 所有对象形成数据空间(矩阵)

– 相似度计算:Cosine、点积、质心距离

4. 用矩阵列出对象之间的距离、相似度

5. 用字典保存上述矩阵(节省空间)

D={(1,1):0,(1,2):2,(1,3):6...(5,5):0}

6. 评价方法

– 内部评价法(Internal Evalution):

• 没有外部标准,非监督式

• 同类是否相似,跨类是否相异

DB值越小聚类效果越好,反之,越不好

– 外部评价法(External Evalution):

• 准确度(accuracy): (C11+C22) / (C11 + C12 + C21 + C22)

• 精度(Precision): C11 / (C11 + C21 )

• 召回(Recall): C11 / (C11 + C12 )

• Fβ值(F-measure):

β表示对精度P的重视程度,越大越重视,默认设置为1,即变成了F1值,F1较高时则能说明聚类效果较好。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子