詹惠儿

2018-11-22   阅读量: 818

数据分析师 统计学 数据挖掘

k-means聚类的分析原理是什么?

扫码加入数据分析学习群

通常,对原始数据表执行k -means聚类分析其中每行表示对象,列表示对象的定量特征。这些定量特征称为聚类变量。例如,表中有18个对象,并且有两个聚类变量xy。在实际应用程序中,通常会有更多对象和更多变量。例如,在市场细分中,其中k-means用于查找具有相似需求的消费者群体,每个对象是一个人,每个变量通常是对各种事物对消费者的重要程度(例如,质量,价格,客户服务,便利性)的评级。

步骤1:指定簇数(k)。k -means的第一步是指定簇的数量,称为k。传统上,研究人员将多次进行k -means,探索不同数量的聚类(例如,从2到10)。

步骤2:将对象分配给群集。最直接的方法是将对象随机分配给集群,但还有许多其他方法(例如,使用分层集群)。在下图中,18个对象在散点图上用点表示其中x由每个对象的水平位置显示,y由垂直显示。对象已被随机分配到两个聚类(k = 2),其中一个聚类显示为填充点,另一个聚类显示未填充点。

步骤3:计算集群意味着。对于每个簇,计算每个变量的平均值。在下图中,由点的水平位置(x)表示的变量的填充点的平均值约为15;对于垂直维度上的变量,它大约是12。这两种方式用实心十字表示。或者,略有不同:填充的十字架位于黑点的中间。同样,白色十字位于白点的中间。这些交叉被不同地称为聚类中心,聚类均值聚类中心

步骤4:将每个观察分配到最近的聚类中心。在上图中,一些填充点更接近白色十字,一些白点更接近黑色十字。

步骤5:重复步骤3和4,直到解收敛。看看上面的图,我们可以看到十字架(集群意味着)不再准确。在下面的图中,它们已经使用步骤3重新计算。在该示例中,聚类分析已经收敛(即,重新分配观察和更新装置不能改进解决方案)。在具有更多数据的示例中,通常需要更多次迭代(即,重复步骤3和4直到没有响应者改变群集)。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子