2019-01-15
阅读量:
936
单变量的特征选择
单变量的特征选择是通过基于单变量的统计测试来选择最好的特征。它可以当做是评估器的预处理步骤。Scikit-learn 将特征选择的内容作为实现了 transform 方法的对象:
SelectKBest
移除那些除了评分最高的 K 个特征之外的所有特征SelectPercentile
移除除了用户指定的最高得分百分比之外的所有特征- 对每个特征应用常见的单变量统计测试: 假阳性率(false positive rate)
SelectFpr
, 伪发现率(false discovery rate)SelectFdr
, 或者族系误差(family wise error)SelectFwe
。 GenericUnivariateSelect
允许使用可配置方法来进行单变量特征选择。它允许超参数搜索评估器来选择最好的单变量特征。
例如下面的实例,我们可以使用

检验样本集来选择最好的两个特征:
>>> from sklearn.datasets import load_iris
>>> from sklearn.feature_selection import SelectKBest
>>> from sklearn.feature_selection import chi2
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X.shape
(150, 4)
>>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
>>> X_new.shape
(150, 2)






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论