2018-11-15
阅读量:
1019
阐述随机森林算法及定义
什么是随机森林算法?
随机森林是一种基于树的算法,它涉及构建多个树(决策树),然后组合它们的输出以提高模型的泛化能力。 组合树的方法称为集合方法。 集合只不过是弱学习者(个体树)的组合,以产生强大的学习者。
比如说,你想看电影。 但你不确定它的评论。 你问10个看过这部电影的人。 其中8人说“这部电影很精彩”。 由于大多数人都赞成,你决定观看这部电影。 这也是我们在日常生活中使用合奏技巧的方式。
随机森林可用于解决回归和分类问题。 在回归问题中,因变量是连续的。 在分类问题中,因变量是分类的。
随机森林的利弊
优点如下:
- 它对相关预测变量具有鲁棒性。
- 它用于解决回归和分类问题。
- 它也可以用于解决无监督的ML问题。
- 它可以处理数千个输入变量而无需变量选择。
- 它可以用作使用其变量重要性图的特征选择工具。
- 它以有效的方式内部处理缺失的数据。
缺点如下:
- 随机森林模型很难解释。
- 它倾向于返回超出训练数据范围的观察的不稳定预测。 例如,训练数据包含两个变量x和y。 x变量的范围是30到70.如果测试数据的x = 200,则随机森林将给出不可靠的预测。
- 计算大量树木所需的时间可能比预期的要长。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论