在聚类算法中主要有这样几种:
划分的方法,如K-Means
层次的方法,如CURE
基于密度的方法,如DBSCAN
基于网格的方法,如CLIQUE
基于模型的方法,主要是一些概率分布
Science上的这篇文章《Clustering by fast search and find of density peaks》主要讲的是一种基于密度的聚类方法,基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。而在文章中提出的聚类方法(以下称为“Desity Peaks Clusering Algorithm, DPCA”)也同样基于这样的一种假设:对于一个数据集,聚类中心被一些低局部密度的数据点包围,而且这些低局部密度的点距离其他有高局部密度的点的距离都比较大。在这样的模型中,DPCA主要有两个需要计算的量:第一,局部密度;第二,与高密度点之间的距离。
1、局部密度的定义为:
称为截断距离(Cut-off distance)。这个公式的含义是说找到与第个数据点之间的距离小于截断距离的数据点的个数。
2、与高密度点之间的距离
这个公式的含义是说找到所有比第个数据点的局部密度都大的数据点中,与第个数据点之间的距离的最小值。而对于具有最大密度的数据点,通常取。
3、如何聚类
对于这样的算法,如何去定义相对较高,作者并没有给出解释,在作者提供的程序和数据中,我做了实验,实验结果如下:
数据分析咨询请扫描二维码