2020-10-23
阅读量:
2191
随机森林优缺点
优点:
1. 随机森林在解决分类与回归两种类型的问题有很大的优势;
2.随机森林抗过拟合能力比较强;
3.随机森林能处理很高维度的数据(也就是很多特征的数据),并且不用做特征选择,因为建树时会随机选择一些特征作为待选特征子集 ;
4.训练速度快,容易做成并行化方法(训练时,树与树之间是相互独立的) ;
5.随机森林可以做类似于GBDT那样的特征组合;
6.在对缺失数据进行估计时,由于随机丢失特征,随机森林依然十分有效;
7.当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法,比如对于 10:1 的数据,将多数数据分为 10份,做 10个 1:1 的单模型然后 Bagging 起来即可。
缺点:
1.随机森林在解决回归问题时,并没有像它在分类中表现的那么好。因为它并不能给出一个连续的输出。当进行回归时,随机森林不能够做出超越训练集数据范围的预测,这可能导致在某些特定噪声的数据进行建模时出现过度拟合。(PS:随机森林已经被证明在某些噪音较大的分类或者回归问题上会过拟合)。
2.对于许多统计建模者来说,随机森林给人的感觉就像一个黑盒子,你无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。
3.可能有很多相似的决策树,掩盖了真实的结果。
4.对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类。(处理高维数据,处理特征遗失数据,处理不平衡数据是随机森林的长处)。






评论(0)


暂无数据