K-means是最常用、最简单的一种聚类算法。k-means聚类,就是将原始数据所含的类数事先给出来,然后将含有相似特征的数据聚为一个类中。
一、K-means聚类算法原理
在聚类问题中,给我们的训练样本是.每个.没有了y。
K-means聚类算法是将样本聚类成k个簇(cluster),具体算法描述如下:
1、 随机选取k个聚类质心点(cluster centroids)为。
2、 重复下面过程直到收敛
对于每一个样例i,计算其应该属于的类
对于每一个类j,重新计算该类的质心
二、基本的步骤为:
下图所示,对n个样本点进行K-means聚类,这里k取3.
step1:按照事先给定的聚类数(图中k=3),选定k个中心点。
step2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类。
step3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4.
step4:针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2.
数据分析咨询请扫描二维码