热线电话:13121318867

登录
2018-10-27 阅读量: 839
随机森林(Random Forests)

随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。

随机森林有许多优点:

具有极高的准确率

随机性的引入,使得随机森林不容易过拟合

随机性的引入,使得随机森林有很好的抗噪声能力

能处理很高维度的数据,并且不用做特征选择

既能处理离散型数据,也能处理连续型数据,数据集无需规范化

训练速度快,可以得到变量重要性排序

容易实现并行化

随机森林的缺点:

当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大

随机森林模型还有许多不好解释的地方,有点算个黑盒模型

与上面介绍的Bagging过程相似,随机森林的构建过程大致如下:

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本,共进行n_tree次采样,生成n_tree个训练集

对于n_tree个训练集,我们分别训练n_tree个决策树模型

对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂

每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝

将生成的多棵决策树组成随机森林。对于分类问题,按多棵树分类器投票决定最终分类结果;对于回归问题,由多棵树预测值的均值决定最终预测结果

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子