kmeans的n_clusters参数是什么意思呢？

shauna570392

2020-05-27 阅读量: 5094

这个是代表聚为多少个类，就是聚类的个数。

KMeans函数的参数详解：

n_clusters：整型，缺省值=8 ，生成的聚类数。
max_iter：整型，缺省值=300 。
　　　　执行一次k-means算法所进行的最大迭代数。
n_init：整型，缺省值=10 。
　　　　　用不同的聚类中心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。
init：有三个可选值：’k-means++’， ‘random’，或者传递一个ndarray向量。
　　　　此参数指定初始化方法，默认值为 ‘k-means++’。
　　　　（１）‘k-means++’ 用一种特殊的方法选定初始聚类中发，可加速迭代过程的收敛。
　　　　（２）‘random’ 随机从训练数据中选取初始质心。
　　　　（３）如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。
precompute_distances：三个可选值，‘auto’，True 或者 False。
　　　　预计算距离，计算速度更快但占用更多内存。
　　　　（１）‘auto’：如果样本数乘以聚类数大于 12million 的话则不预计算距离。
　　　　（２）True：总是预先计算距离。
　　　　（３）False：永远不预先计算距离。
tol：float类型，默认值= 1e-4　与inertia结合来确定收敛条件。
n_jobs：整形数。　指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
　　　　（１）若值为 -1，则用所有的CPU进行运算。若值为1，则不进行并行运算。
　　　　（２）若值小于-1，则用到的CPU数为(n_cpus + 1 + n_jobs)。因此如果 n_jobs值为-2，则用到的CPU数为总CPU数减1。
random_state：整型或 numpy.RandomState 类型，可选
　　　　　用于初始化质心的生成器（generator）。如果值为一个整数，则确定一个seed。此参数默认值为numpy的随机数生成器。
copy_x：布尔型，默认值=True 　　
　　　　　　当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据

8.7217

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子