zxq997

2018-10-21   阅读量: 674

数据分析师 机器学习

聚类的种类

扫码加入数据分析学习群

聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。

层次聚类法

层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。

K-均值聚类

层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。

二阶聚类

随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
18.6612 5 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子