詹惠儿

2018-11-15   阅读量: 807

机器学习

阐述随机森林算法及定义

扫码加入数据分析学习群

什么是随机森林算法?

随机森林是一种基于树的算法,它涉及构建多个树(决策树),然后组合它们的输出以提高模型的泛化能力。 组合树的方法称为集合方法。 集合只不过是弱学习者(个体树)的组合,以产生强大的学习者。

比如说,你想看电影。 但你不确定它的评论。 你问10个看过这部电影的人。 其中8人说“这部电影很精彩”。 由于大多数人都赞成,你决定观看这部电影。 这也是我们在日常生活中使用合奏技巧的方式。

随机森林可用于解决回归和分类问题。 在回归问题中,因变量是连续的。 在分类问题中,因变量是分类的。

随机森林的利弊

优点如下:

  1. 它对相关预测变量具有鲁棒性。
  2. 它用于解决回归和分类问题。
  3. 它也可以用于解决无监督的ML问题。
  4. 它可以处理数千个输入变量而无需变量选择。
  5. 它可以用作使用其变量重要性图的特征选择工具。
  6. 它以有效的方式内部处理缺失的数据。

缺点如下:

  1. 随机森林模型很难解释。
  2. 它倾向于返回超出训练数据范围的观察的不稳定预测。 例如,训练数据包含两个变量x和y。 x变量的范围是30到70.如果测试数据的x = 200,则随机森林将给出不可靠的预测。
  3. 计算大量树木所需的时间可能比预期的要长。
添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子