机器学习：决策树重要参数说明

田齐齐

2020-03-18 阅读量: 1233

机器学习：决策树重要参数说明

DecisionTreeClassifier
(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, )

参数说明:
criterion 指标: 衡量不纯度的指标, # 默认 gini
splitter 属性选择方法: 默认是'best', 也可以选择"random"随机切分.
max_depth 决策树最大树深度: (重要: 用于控制模型复杂度, 深度越高, 模型越复杂.模型学习能力就会越强, 但是就越容易过拟合)
min_samples_split 最小样本分类个数: # 默认 2 如果一个节点中的样本不这个参数的值还小, 则这个样本不能再继续向下分裂.
min_samples_leaf 最小叶节点样本个数:分裂之后, 如果有叶节点样本个数不到这个数字, 则本次分裂不允许
max_features 最大考虑特征: 在每次分裂的时候计算多少个特征. If None,全都用 If “sqrt”: 就考虑根号个特征, 举例有 100 个特征, 那么就随机的抽取出10个进行测试.从10 个里面选出最好的.
If int:例如设置 12 个, 100 个特征, 那就抽 12 个计算. If float 百分比:设置0.6, 100个特征,抽取出60个来进行测试.
random_state: 随机数种子
max_leaf_nodes: 最大叶节点个数, 生成的最多能有几个叶节点
min_impurity_decrease:最小不纯度下降, 在一次分裂中不纯度必须要下降超过这个数值, 否则不能分类. min_impurity_split 当前节点不纯度必须要超过这个值才能向下分裂
class_weight: 样本权重比例关系

3.7748

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子