问:
机器学习聚类的参数n_clusters要分几类才比较好 ?
答:
n_ clusters是K-Means中的k,表示着我们告诉模型我们要分几类。这是K Means当中唯一个必填的参
数,默认为8类,但通常我们的聚类结果会是一个小于8的结果。 通常,在开始聚类之前,我们并不知道
n_ clusters究竟是多少,因此我们要对它进行探索。
当我们拿到-一个数据集,如果可能的话,我们希望能够通过绘图先观察一下这个数据集的数据分布, 以
此来为我们聚类时输入的n_ clusters做一 个参考。
答:cart树本身实现的时候就是二分的二叉树,cart算法先对数据进行二分,然后再计算基尼系数这个指标,最后根据基尼系数这个指标去寻找最优切分点。所以cart树的二分与基尼系数、信息增益率无关。