热线电话:13121318867

登录
2019-06-12 阅读量: 899
scikit-learn自带的数据集分类

1.从scikit-learn上的datasets中直接下载的少量数据集:load_<name>()

例:(以红酒为例)

from sklearn.datasets import load_wine

Wine = load_wine()

Wine.data

2.直接从网上在线抓取的数据集:fetch_<name>()

例:(以california_housing 为例 )

from sklearn.datasets import fetch_california_housing

california_housing = fetch_california_housing()

california_housing.data

3.计算机生成的数据集:make_<name>()

make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集

make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等

make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类

make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度

make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据

datasets.get_data_home()方法:显示存放数据集存放的本地目录

16.3824
2
关注作者
收藏
评论(0)

发表评论

暂无数据