2018-10-31
阅读量:
1823
分层聚类
分层聚类涉及创建从上到下具有预定排序的聚类。例如,硬盘上的所有文件和文件夹都按层次结构进行组织。有两种类型的层次聚类,Divisive和Agglomerative。

分裂的方法
在分裂或自上而下的聚类方法中,我们将所有观察分配给单个集群,然后将集群划分为两个最不相似的集群。最后,我们递归地对每个簇进行处理,直到每个观察有一个簇。有证据表明,在某些情况下,分裂算法比凝聚算法产生更准确的层次结构,但在概念上更复杂。
凝聚法
在凝聚或自下而上的聚类方法中,我们将每个观察分配给它自己的聚类。然后,计算每个聚类之间的相似性(例如,距离)并加入两个最相似的聚类。最后,重复步骤2和3,直到只剩下一个簇。相关算法如下所示。

在执行任何聚类之前,需要使用距离函数确定包含每个点之间的距离的邻近矩阵。然后,更新矩阵以显示每个簇之间的距离。以下三种方法的不同之处在于如何测量每个簇之间的距离。单链接在单链接层次聚类中,两个聚类之间的距离定义为每个聚类中两点之间的最短距离。例如,左边的簇“r”和“s”之间的距离等于它们两个最近点之间的箭头长度。

完整的链接
在完全链接层次聚类中,两个聚类之间的距离定义为每个聚类中两个点之间的最长距离。例如,左边的簇“r”和“s”之间的距离等于它们两个最远点之间的箭头长度。

平均链接
在平均链接层次聚类中,两个聚类之间的距离被定义为一个聚类中的每个点与另一个聚类中的每个点之间的平均距离。例如,左边的簇“r”和“s”之间的距离等于将一个簇的点连接到另一个簇之间的每个箭头的平均长度。







评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论