PhilipLiang

2020-06-18   阅读量: 948

Python数据分析 Python编程 机器学习 Scikit-learn

机器学习第二天作业知识点整理

扫码加入数据分析学习群

KMeans的原理

  1. 先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心
  2. 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集
  3. 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数)
  4. 将集合A中全部元素按照新的中心然后再重新聚类
  5. 重复以上步骤,直到聚类的结果不再发生变化

KMeans的优点

  1. 原理比较简单,实现也很容易,收敛速度快。
  2. 球状聚类效果较优。
  3. 算法的可解释度比较强。
  4. 主要需要调参的参数仅仅是簇数k。

KMeans的缺点

  1. K值的选取不好把握,需要自己选择。
  2. 对于不是凸的数据集比较难收敛。
  3. 如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
  4. 采用迭代方法,得到的结果只是局部最优。
  5. 对离群点和孤立点比较敏感。
  6. 初始聚类中心需要多次选择。
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子