sklearn中集成了各种数据挖掘所需的变量变换、变量信息处理、统计建模、模型优化、模型评估方法,为便于使用,这些操作基本上都封装成了具有统一API的类,调用时都遵循统一的操作规范。
标准的类参数
class sklearn.大类名称.Modelclass(类参数列表)
Modelclass中基本通用的类参数:
fit_intercept = True : 模型是否包括常数项
使用该选项就不需要在数据框中设定cons
n_jobs = 1 : 使用的例程数,为-1时使用全部CPU
max_iter = 200 : int,模型最大迭代次数
tol = 0.0001 模型收敛标准
warm_start = False : 是否使用上一次的模型拟合结果作为本次初始值
sample_weight = None : 案例权重
random_state = None : int/RandomState instance/None, 随机器的设定
shuffle = True : 是否在拆分前对样本做随机排列
)# 大多数类参数都会有默认值
Modelclass中基本通用的类方法
get_params([deep]) : 获取模型的具体参数设定
set_params(**params) : 重新设定模型参数
fit(X, y[, sample_weight]) : 使用数据拟合模型/方法
特征处理class:Preprocessing、降维、Feature extraction/selection
transform(X[, y]) : 使用拟合好的模型对指定数据进行转换
fit_transform(X[, y]) : 对数据拟合相应的方法,并且进行转换
建模分析class:Classification、Regression、Clustering
predict(X) : 使用拟合好的模型对数据计算预测值
predict_proba(X) : 模型给出的每个案例(各个类别)的预测概率
score(X, y[, sample_weight]) : 返回模型决定系数/模型准确度评价指标
Modelclass中基本通用的类属性
注意:模型拟合前这些属性可能不存在
coef_ : array,多因变量时为二维数组
intercept_ : 常数项
classes_ : 每个输出的类标签
n_classes_ : int or list,类别数
n_features_ : int,特征数
loss_ : 损失函数计算出来的当前损失值
n_iter_ : 迭代次数








暂无数据