热线电话:13121318867

登录
2018-11-16 阅读量: 1857
sklearn中随机森林有哪些重要的参数

使模型预测效果更好的特征:

  • n_estimators:随机森林里子树的数量,通常数量越大,效果越好,但是计算时间也会随之增加。 此外要注意,当树的数量超过一个临界值之后,算法的效果并不会很显著地变好。
  • max_features:分割节点时考虑的特征的随机子集的大小。这个值越低,方差减小得越多,但是偏差的增大也越多。根据经验,回归问题中使用 max_features = n_features,分类问题使用 max_features = sqrt(n_features )(其中 n_features 是特征的个数)是比较好的默认值。
  • min_samples_leaf:叶子节点最少的样本数,当叶子节点的样本数少于设置的阈值时该节点停止生长。

使模型训练更容易的特征:

  • n_jobs:这个是job可并行计算的个数,这个参数告诉引擎有多少处理器是它可以使用。 “-1”意味着没有限制,而“1”值意味着它只能使用一个处理器。
  • oob_score:这是一个随机森林交叉验证方法。oob(out of band,带外)数据,即:在某次决策树训练中没有被bootstrap选中的数据。当使用自助采样法方法抽样时,泛化精度是可以通过剩余的或者袋外的样本来估算的,设置oob_score=True即可

0.0000
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子