决策树参数_CDA答疑社区

tree,DecisionTreeClassfier(

criterion='gini', # 默认基尼系数 gini(基尼系数)/entropy(熵)

splitter='best', # 指定切分原则 best(最优)/redom(随机)

# string, optional (default="best")

max_features=None,

# int, float, string or None, optional (default=None)

# 可以为整数、浮点、字符或者None，指定寻找best split时考虑的特征数量。

# 如果是整数，则每次切分只考虑max_features个特征。

# 如果是浮点数，则每次切分只考虑max_features*n_features个特征(max_features指定了百分比)。

# 如果是字符串‘auto’，则max_features等于n_features。

# 如果是字符串‘sqrt’，则max_features等于sqrt(n_features)。

# 如果是字符串‘log2’，则max_features等于log2(n_features)。

# 如果是字符串None，则max_features等于n_features。

max_depth=None,

         # int or None, optional (default=None)

# 可以为整数或者None，指定树的最大深度。

# 如果为None，表示树的深度不限(知道每个叶子都是纯的，即叶子结点中的所有样本点 都属于一个类，或者叶子中包含小于min_sanples_split个样本点)。

如果max_leaf_nodes参数非None，则忽略此项。

min_samples_leaf=1,

# int, float, optional (default=1)

#为整数，指定每个叶子结点包含的最少的样本数。

min_weight_fraction_leaf=0.0,

# float, optional (default=0.)

# 为浮点数，叶子节点中样本的最小权重系数。

min_samples_split=2,

# int, float, optional (default=2)

#为整数，指定每个内部节点(非叶子节点)包含的最少的样本数。

random_state=None,

# int, RandomState instance or None, optional (default=None)

# 一个整数或者一个RandomState实例，或者None。

# 如果为整数，则它指定了随机数生成器的种子。

# 如果为RandomState实例，则指定了随机数生成器

# 如果为None，则使用默认的随机数生成器。

max_leaf_nodes=None,

# int or None, optional (default=None)

# 为整数或None，指定叶子结点的最大数量。

# 如果为None，此时叶子节点数不限。

# 如果非None，则max_depth被忽略。

min_impurity_decrease=0.0,

# float, optional (default=0.)

# 一个节点将被分割，如果这种分割导致杂质的减少

大于或等于这个值。

杂质的加权减少方程为:

杂质- N_t_R / N_t * right_杂质- N_t_L / N_t * left_杂质)

其中”N”为样本总数，”N_t”为样本总数

在当前节点上，”N_t_L”是样本的数量

“N_t_R”右子节点的样本数。

“N”

min_impurity_split=None,

# float, (default=1e-7)

树木生长早期停止的阈值。一个节点将分裂，如果它的杂质超过阈值，否则它是叶子。

class_weight=None,

# dict, list of dicts, "balanced" or None, default=None

# “平衡”或无，默认=无与形式' ' {class_label: weight} ' '的类关联的权重。如果没有给出，所有类的权重都应该是1。多输出问题,字典的列表可以提供在y的顺序列。请注意,对于multioutput(包括multilabel)权重的每一列应该为每个类定义自己的东西。例如,对于四级multilabel分类权重应该({0,1,1:1},{0,1,1:5},{0,1,1:1},{0:1,1:1}]不是[{1:1},{2:5},{3},{1})。“平衡”模式使用y的值自动调整输入数据中与类频率成反比的权重，如' ' n_samples / (n_classes * np.bincount(y)) ' '对于多输出，y的每一列的权重将被相乘。注意，如果指定了sample_weight，那么这些权重将与sample_weight相乘(通过fit方法传递)

presort=False,

# bool, optional (default=False)

是否预估数据以加快寻找最佳分割拟合。用于大型决策树的默认设置数据集，

设置为真可能会减慢训练过程。

（当使用较小的数据集或有限的深度时，这可能会发生加快训练。)