步骤1:指定簇数(k)。k -means的第一步是指定簇的数量,称为k。传统上,研究人员将多次进行k -means,探索不同数量的聚类(例如,从2到10)。
步骤2:将对象分配给群集。最直接的方法是将对象随机分配给集群,但还有许多其他方法(例如,使用分层集群)。在下图中,18个对象在散点图上用点表示,其中x由每个对象的水平位置显示,y由垂直显示。对象已被随机分配到两个聚类(k = 2),其中一个聚类显示为填充点,另一个聚类显示未填充点。
步骤3:计算集群意味着。对于每个簇,计算每个变量的平均值。在下图中,由点的水平位置(x)表示的变量的填充点的平均值约为15;对于垂直维度上的变量,它大约是12。这两种方式用实心十字表示。或者,略有不同:填充的十字架位于黑点的中间。同样,白色十字位于白点的中间。这些交叉被不同地称为聚类中心,聚类均值和聚类中心。
步骤4:将每个观察分配到最近的聚类中心。在上图中,一些填充点更接近白色十字,一些白点更接近黑色十字。
步骤5:重复步骤3和4,直到解收敛。看看上面的图,我们可以看到十字架(集群意味着)不再准确。在下面的图中,它们已经使用步骤3重新计算。在该示例中,聚类分析已经收敛(即,重新分配观察和更新装置不能改进解决方案)。在具有更多数据的示例中,通常需要更多次迭代(即,重复步骤3和4直到没有响应者改变群集)。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar