2020-06-12
阅读量:
4781
kbinsdiscretizer这个包有什么作用?
sklearn.preprocessing.KBinsDiscretizer这个模块是用来做数据离散化处理
离散化 (Discretization) (有些时候叫 量化(quantization) 或 分箱(binning)) ,是将连续特征划分为离散特征值的方法。 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。
sklearn.preprocessing.KBinsDiscretizer(n_bins=5, encode=’onehot’, strategy=’quantile’)
参数注释:
n_bins:分箱的数量,默认值是5,也可以是列表,指定各个特征的分箱数量,例如,[feature1_bins,feature2_bins,...]
encode:编码方式,{‘onehot’, ‘onehot-dense’, ‘ordinal’}, (default=’onehot’)
- onehot:以onehot方式编码,返回稀疏矩阵
- onehot-dense:以onehot方式编码,返回密集矩阵
- ordinal:以ordinal方式编码,返回分箱的序号
strategy:定义分箱宽度的策略,{‘uniform’, ‘quantile’, ‘kmeans’}, (default=’quantile’)
- uniform:每个分箱等宽
- quantile:每个分箱中拥有相同数量的数据点
- kmeans:每个箱中的值具有与1D k均值簇最近的中心






推荐帖子
0条评论
0条评论
0条评论