tree,DecisionTreeClassfier(
criterion='gini', # 默认基尼系数 gini(基尼系数)/entropy(熵)
splitter='best', # 指定切分原则 best(最优)/redom(随机)
# string, optional (default="best")
max_features=None,
# int, float, string or None, optional (default=None)
# 可以为整数、浮点、字符或者None,指定寻找best split时考虑的特征数量。
# 如果是整数,则每次切分只考虑max_features个特征。
# 如果是浮点数,则每次切分只考虑max_features*n_features个特征(max_features指定了百分比)。
# 如果是字符串‘auto’,则max_features等于n_features。
# 如果是字符串‘sqrt’,则max_features等于sqrt(n_features)。
# 如果是字符串‘log2’,则max_features等于log2(n_features)。
# 如果是字符串None,则max_features等于n_features。
max_depth=None,
# int or None, optional (default=None)
# 可以为整数或者None,指定树的最大深度。
# 如果为None,表示树的深度不限(知道每个叶子都是纯的,即叶子结点中的所有样本点 都属于一个类,或者叶子中包含小于min_sanples_split个样本点)。
如果max_leaf_nodes参数非None,则忽略此项。
min_samples_leaf=1,
# int, float, optional (default=1)
#为整数,指定每个叶子结点包含的最少的样本数。
min_weight_fraction_leaf=0.0,
# float, optional (default=0.)
# 为浮点数,叶子节点中样本的最小权重系数。
min_samples_split=2,
# int, float, optional (default=2)
#为整数,指定每个内部节点(非叶子节点)包含的最少的样本数。
random_state=None,
# int, RandomState instance or None, optional (default=None)
# 一个整数或者一个RandomState实例,或者None。
# 如果为整数,则它指定了随机数生成器的种子。
# 如果为RandomState实例,则指定了随机数生成器
# 如果为None,则使用默认的随机数生成器。
max_leaf_nodes=None,
# int or None, optional (default=None)
# 为整数或None,指定叶子结点的最大数量。
# 如果为None,此时叶子节点数不限。
# 如果非None,则max_depth被忽略。
min_impurity_decrease=0.0,
# float, optional (default=0.)
# 一个节点将被分割,如果这种分割导致杂质的减少
大于或等于这个值。
杂质的加权减少方程为:
杂质- N_t_R / N_t * right_杂质- N_t_L / N_t * left_杂质)
其中”N”为样本总数,”N_t”为样本总数
在当前节点上,”N_t_L”是样本的数量
“N_t_R”右子节点的样本数。
“N”
min_impurity_split=None,
# float, (default=1e-7)
树木生长早期停止的阈值。一个节点将分裂,如果它的杂质超过阈值,否则它是叶子。
class_weight=None,
# dict, list of dicts, "balanced" or None, default=None
# “平衡”或无,默认=无与形式' ' {class_label: weight} ' '的类关联的权重。如果没有给出,所有类的权重都应该是1。多输出问题,字典的列表可以提供在y的顺序列。请注意,对于multioutput(包括multilabel)权重的每一列应该为每个类定义自己的东西。例如,对于四级multilabel分类权重应该({0,1,1:1},{0,1,1:5},{0,1,1:1},{0:1,1:1}]不是[{1:1},{2:5},{3},{1})。“平衡”模式使用y的值自动调整输入数据中与类频率成反比的权重,如' ' n_samples / (n_classes * np.bincount(y)) ' '对于多输出,y的每一列的权重将被相乘。注意,如果指定了sample_weight,那么这些权重将与sample_weight相乘(通过fit方法传递)
presort=False,
# bool, optional (default=False)
是否预估数据以加快寻找最佳分割拟合。用于大型决策树的默认设置数据集,
设置为真可能会减慢训练过程。
(当使用较小的数据集或有限的深度时,这可能会发生加快训练。)








暂无数据