k-means聚类的分析原理是什么？

詹惠儿

2018-11-22 阅读量: 1389

k-means聚类的分析原理是什么？

通常，对原始数据表执行k -means聚类分析，其中每行表示对象，列表示对象的定量特征。这些定量特征称为聚类变量。例如，表中有18个对象，并且有两个聚类变量x和y。在实际应用程序中，通常会有更多对象和更多变量。例如，在市场细分中，其中k-means用于查找具有相似需求的消费者群体，每个对象是一个人，每个变量通常是对各种事物对消费者的重要程度（例如，质量，价格，客户服务，便利性）的评级。

步骤1：指定簇数（k）。k -means的第一步是指定簇的数量，称为k。传统上，研究人员将多次进行k -means，探索不同数量的聚类（例如，从2到10）。

步骤2：将对象分配给群集。最直接的方法是将对象随机分配给集群，但还有许多其他方法（例如，使用分层集群）。在下图中，18个对象在散点图上用点表示，其中x由每个对象的水平位置显示，y由垂直显示。对象已被随机分配到两个聚类（k = 2），其中一个聚类显示为填充点，另一个聚类显示未填充点。

步骤3：计算集群意味着。对于每个簇，计算每个变量的平均值。在下图中，由点的水平位置（x）表示的变量的填充点的平均值约为15;对于垂直维度上的变量，它大约是12。这两种方式用实心十字表示。或者，略有不同：填充的十字架位于黑点的中间。同样，白色十字位于白点的中间。这些交叉被不同地称为聚类中心，聚类均值和聚类中心。

步骤4：将每个观察分配到最近的聚类中心。在上图中，一些填充点更接近白色十字，一些白点更接近黑色十字。

步骤5：重复步骤3和4，直到解收敛。看看上面的图，我们可以看到十字架（集群意味着）不再准确。在下面的图中，它们已经使用步骤3重新计算。在该示例中，聚类分析已经收敛（即，重新分配观察和更新装置不能改进解决方案）。在具有更多数据的示例中，通常需要更多次迭代（即，重复步骤3和4直到没有响应者改变群集）。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子