k_0711

2020-09-14   阅读量: 720

Python

决策树参数

扫码加入数据分析学习群

tree,DecisionTreeClassfier(
criterion='gini', # 默认基尼系数 gini(基尼系数)/entropy(熵)

splitter='best', # 指定切分原则 best(最优)/redom(随机)

# string, optional (default="best")

max_features=None,

# int, float, string or None, optional (default=None)

# 可以为整数、浮点、字符或者None,指定寻找best split时考虑的特征数量。

# 如果是整数,则每次切分只考虑max_features个特征。

# 如果是浮点数,则每次切分只考虑max_features*n_features个特征(max_features指定了百分比)

# 如果是字符串‘auto’,则max_features等于n_features

# 如果是字符串‘sqrt’,则max_features等于sqrt(n_features)

# 如果是字符串‘log2’,则max_features等于log2(n_features)

# 如果是字符串None,则max_features等于n_features

max_depth=None,

         # int or None, optional (default=None)


# 可以为整数或者None,指定树的最大深度。

# 如果为None,表示树的深度不限(知道每个叶子都是纯的,即叶子结点中的所有样本点 都属于一个类,或者叶子中包含小于min_sanples_split个样本点)

如果max_leaf_nodes参数非None,则忽略此项。

min_samples_leaf=1,

# int, float, optional (default=1)

#为整数,指定每个叶子结点包含的最少的样本数。

min_weight_fraction_leaf=0.0,

# float, optional (default=0.)

# 为浮点数,叶子节点中样本的最小权重系数。

min_samples_split=2,

# int, float, optional (default=2)

#为整数,指定每个内部节点(非叶子节点)包含的最少的样本数。

random_state=None,

# int, RandomState instance or None, optional (default=None)

# 一个整数或者一个RandomState实例,或者None

# 如果为整数,则它指定了随机数生成器的种子。

# 如果为RandomState实例,则指定了随机数生成器

# 如果为None,则使用默认的随机数生成器。

max_leaf_nodes=None,

# int or None, optional (default=None)

# 为整数或None,指定叶子结点的最大数量。

# 如果为None,此时叶子节点数不限。

# 如果非None,则max_depth被忽略。

min_impurity_decrease=0.0,

# float, optional (default=0.)

# 一个节点将被分割,如果这种分割导致杂质的减少

大于或等于这个值。

杂质的加权减少方程为:

杂质- N_t_R / N_t * right_杂质- N_t_L / N_t * left_杂质)

其中”N”为样本总数,”N_t”为样本总数

在当前节点上,”N_t_L”是样本的数量

“N_t_R”右子节点的样本数。

“N”

min_impurity_split=None,

# float, (default=1e-7)

树木生长早期停止的阈值。一个节点将分裂,如果它的杂质超过阈值,否则它是叶子。

class_weight=None,

# dict, list of dicts, "balanced" or None, default=None

# “平衡”或无,默认=无与形式' ' {class_label: weight} ' '的类关联的权重。如果没有给出,所有类的权重都应该是1。多输出问题,字典的列表可以提供在y的顺序列。请注意,对于multioutput(包括multilabel)权重的每一列应该为每个类定义自己的东西。例如,对于四级multilabel分类权重应该({0,1,1:1},{0,1,1:5},{0,1,1:1},{0:1,1:1}]不是[{1:1},{2:5},{3},{1})平衡模式使用y的值自动调整输入数据中与类频率成反比的权重,如' ' n_samples / (n_classes * np.bincount(y)) ' '对于多输出,y的每一列的权重将被相乘。注意,如果指定了sample_weight,那么这些权重将与sample_weight相乘(通过fit方法传递)

presort=False,

# bool, optional (default=False)

是否预估数据以加快寻找最佳分割拟合。用于大型决策树的默认设置数据集,

设置为真可能会减慢训练过程。

(当使用较小的数据集或有限的深度时,这可能会发生加快训练。)


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
99.3732 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子