2018-10-25
阅读量:
1750
随机森林的优点和缺点
随机森林(Random Forest)是属于集成学习的一种组合分类算法(确切说是属于bagging),集成学习的核心思想就是将若干个弱(基)分类器组合起来,得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成,就可以使用随机森林算法。
随机森林利用自主抽样法(bootstrap)从原数据集中有放回地抽取多个样本,对抽取的样本先用弱分类器—决策树进行训练,然后把这些决策树组合在一起,通过投票得出最终的分类或预测结果。
随机森林的优点:
- 随机森林能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择
- 在训练完之后,随机森林能给出哪些特征比较重要
- 模型的泛化能力较强
- 训练模型时速度快,成并行化方式,即树之间相互独立
- 模型可以处理不平衡数据,平衡误差
- 最终训练结果,可以对特种额排序,选择比较重要的特征
- 随机森林有袋外数据(OOB),因此不需要单独划分交叉验证集
- 对缺失值、异常值不敏感
- 模型训练结果准确度高
- 相对Bagging能够收敛于更小的泛化误差
- 如果有很大一部分的特征遗失,用RF算法仍然可以维持准确度。
随机森林的缺点:
- 对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类。
- 当数据噪声比较大时,会产生过拟合现象
- 对有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
- 执行数据虽然比boosting等快(随机森林属于bagging),但比单只决策树慢多了。
- 可能有很多相似的决策树,掩盖了真实的结果。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论