机器学习:利用sklearn生成4个簇的数据

田齐齐

2020-03-20 阅读量: 5037

导包:

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import make_blobs

生成数据:

# X为样本特征，Y为样本簇类别， 共1000个样本，
# 每个样本 2 个特征，共4个簇，
# 簇中心在[-1,-1], [0,0],[1,1], [2,2]， 
# 簇标准差分别为[0.4, 0.2, 0.2,0.2] 

X, y = make_blobs(n_samples=1000,n_features=2,
      centers= [[-1,-1], [0,0],[1,1], [2,2] ],  # 簇中心点的个数决定分成几簇
          cluster_std=[0.4, 0.2, 0.2,0.2],random_state=666)  # 决定每簇数据之间的离散程度指标