2019-01-30
阅读量:
7142
K-means、系统聚类和二阶聚类的适用范围分别是?
K-means聚类:也叫作快速聚类,要求事先选好多少类,例如分3类,那么系统就会生成3个“聚类种子”,然后根据与这3个点的距离远近,把所有的点分成三类,再把这3类的中心(均值)作为新的基石或种子(原来的种子就没用了),重新按照距离分类,如此迭代下去,直到达到停止迭代的要求(比如,各类最后的变化不大了,或者迭代次数太多了)
系统聚类:也叫作分层聚类,开始时有多少点就是多少类,它先把最近的两类(点)合并到一类,然后再把剩下的最近的两类合并成一类,这样下去,每次都少一类,直到最后只有一个大类为止
二阶聚类:连续变量和分类变量可以同时进行,综合考虑分类变量和连续变量的重要性,先构建聚类特征树来“分裂”,再使用系统聚类做"凝聚"的过程,BIC、AIC可以作为判断好坏的指标(值越小,信息损失越少,越好)
3种聚类方法的不同可以从多个角度来看:
- 从个案数量来看,二步聚类和K-means都适用于大型数据,而系统聚类适用的数据量级更小
- 从变量类型来看,二步聚类和系统聚类都适用于分类或连续型,而K-means则对变量要求较高,需要连续且正态的变量才能适用
- 从类别个数来看,K-means是人工指定的数量,二步聚类既可以人工指定也可以系统判断,系统聚类则给出了更多的数量选择过程
- 从解释力度来看,K-means的业务解释力较强,而二步聚类的统计解释力较强
- 从行列方向来看,只有系统聚类可以对变量进行聚类,但是并不经常使用






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论