yuechuchen

2020-06-21   阅读量: 1254

SPSS 数据分析师

K-Means算法原理及改进

扫码加入数据分析学习群

1.k-means原理:第一步选取K个点作为质心;第二步计算所有样本点到所有质心的距离;第三步,把这些距离进行排序,从中找出单个样本点距离最近的质心并把该样本点划分到最近质心所代表的类中;第四步,计算得出刚聚成的各簇的真正质心;第五步重新计算所有样本点到各个新质心的距离,依次重复上述过程知道最后无论怎样迭代,所有的质心和样本点归属的类都不再发生变动,或者达到设定 的最大迭代次数或者每次质心变动的量小于设定值,迭代结束,聚类完成。

2.改进:a. kmeans++:初始随机点选择尽可能远,避免陷入局部解。方法是n+1个中心点选择时,对于离前n个点更远的点被选择到的概率更大b. mini batch kmeans:每次只用一个子集做重入类并找到类心(提高训练速度)c. ISODATA:对于难以确定k的时候,使用该方法。思路是当类下的样本小时,剔除;类下样本数量多时,拆分d. kernel kmeans:kmeans用欧氏距离计算相似度,也可以使用kernel映射到高维空间再聚类



17.0367 2 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子