随机森林的优点和缺点_CDA答疑社区

热线电话：13121318867

登录

809669515

2018-10-25 阅读量: 1777

随机森林的优点和缺点

随机森林（Random Forest）是属于集成学习的一种组合分类算法（确切说是属于bagging），集成学习的核心思想就是将若干个弱（基）分类器组合起来，得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成，就可以使用随机森林算法。

随机森林利用自主抽样法（bootstrap）从原数据集中有放回地抽取多个样本，对抽取的样本先用弱分类器—决策树进行训练，然后把这些决策树组合在一起，通过投票得出最终的分类或预测结果。

随机森林的优点：

随机森林能处理很高维度的数据（也就是很多特征的数据），并且不用做特征选择
在训练完之后，随机森林能给出哪些特征比较重要
模型的泛化能力较强
训练模型时速度快，成并行化方式，即树之间相互独立
模型可以处理不平衡数据，平衡误差
最终训练结果，可以对特种额排序，选择比较重要的特征
随机森林有袋外数据（OOB），因此不需要单独划分交叉验证集
对缺失值、异常值不敏感
模型训练结果准确度高
相对Bagging能够收敛于更小的泛化误差
如果有很大一部分的特征遗失，用RF算法仍然可以维持准确度。

随机森林的缺点：

对于小数据或者低维数据（特征较少的数据），可能不能产生很好的分类。
当数据噪声比较大时，会产生过拟合现象
对有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
执行数据虽然比boosting等快（随机森林属于bagging），但比单只决策树慢多了。
可能有很多相似的决策树，掩盖了真实的结果。

0.0000

0

0

关注作者

收藏

评论(0)

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子