2018-12-10
阅读量:
901
K-means中的K怎么理解?
我们给出了一组项目数据,包括某些特征和这些特征的值(如矢量)。任务是将这些项目分组。为此,我们将使用kMeans算法; 无监督学习算法。
概观
(如果您将项目视为n维空间中的点,将会有所帮助)。该算法将项目分类为k组相似性。为了计算这种相似性,我们将使用欧氏距离作为测量值。
该算法的工作原理如下:
- 首先,我们随机地初始化k个点,称为均值。
- 我们将每个项目分类为其最接近的平均值,并更新平均值的坐标,这是迄今为止分类的项目的平均值。
- 我们在给定次数的迭代中重复该过程,最后,我们有了我们的集群。
上面提到的“点”称为均值,因为它们包含分类在其中的项目的平均值。要初始化这些方法,我们有很多选择。一种直观的方法是初始化数据集中随机项的均值。另一种方法是在数据集边界之间的随机值初始化均值(如果对于特征x,项目具有[0,3]中的值,我们将使用[0,3]处的x值初始化均值) 。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论