sklearn基本操作_CDA答疑社区

M17051121193254

2020-06-08 阅读量: 1502

sklearn基本操作

sklearn中集成了各种数据挖掘所需的变量变换、变量信息处理、统计建模、模型优化、模型评估方法，为便于使用，这些操作基本上都封装成了具有统一API的类，调用时都遵循统一的操作规范。

标准的类参数

class sklearn.大类名称.Modelclass(类参数列表)

Modelclass中基本通用的类参数：

fit_intercept = True : 模型是否包括常数项

使用该选项就不需要在数据框中设定cons

n_jobs = 1 : 使用的例程数，为-1时使用全部CPU

max_iter = 200 : int，模型最大迭代次数

tol = 0.0001 模型收敛标准

warm_start = False : 是否使用上一次的模型拟合结果作为本次初始值

sample_weight = None : 案例权重

random_state = None : int/RandomState instance/None, 随机器的设定

shuffle = True : 是否在拆分前对样本做随机排列

)# 大多数类参数都会有默认值

Modelclass中基本通用的类方法

get_params([deep]) : 获取模型的具体参数设定

set_params(**params) : 重新设定模型参数

fit(X, y[, sample_weight]) : 使用数据拟合模型/方法

特征处理class：Preprocessing、降维、Feature extraction/selection

transform(X[, y]) : 使用拟合好的模型对指定数据进行转换

fit_transform(X[, y]) : 对数据拟合相应的方法，并且进行转换

建模分析class：Classification、Regression、Clustering

predict(X) : 使用拟合好的模型对数据计算预测值

predict_proba(X) : 模型给出的每个案例（各个类别）的预测概率

score(X, y[, sample_weight]) : 返回模型决定系数/模型准确度评价指标

Modelclass中基本通用的类属性

注意：模型拟合前这些属性可能不存在

coef_ : array，多因变量时为二维数组

intercept_ : 常数项

classes_ : 每个输出的类标签

n_classes_ : int or list，类别数

n_features_ : int，特征数

loss_ : 损失函数计算出来的当前损失值

n_iter_ : 迭代次数

13.8799

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子