机器学习第二天作业知识点整理_CDA答疑社区

热线电话：13121318867

登录

PhilipLiang

2020-06-18 阅读量: 1975

机器学习第二天作业知识点整理

KMeans的原理

先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心
分别计算剩下的元素到k个子集中心的距离，将这些元素分别划归到最近的子集
根据聚类结果，重新计算中心（子集中所有元素各个维度的算数平均数）
将集合A中全部元素按照新的中心然后再重新聚类
重复以上步骤，直到聚类的结果不再发生变化

KMeans的优点

原理比较简单，实现也很容易，收敛速度快。
球状聚类效果较优。
算法的可解释度比较强。
主要需要调参的参数仅仅是簇数k。

KMeans的缺点

K值的选取不好把握，需要自己选择。
对于不是凸的数据集比较难收敛。
如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。
采用迭代方法，得到的结果只是局部最优。
对离群点和孤立点比较敏感。
初始聚类中心需要多次选择。

0.0000

0

3

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子