机器学习之随机森林（一）-CDA数据分析师官网

热线电话：13121318867

机器学习之随机森林（一）

2019-02-20

如果大家想学人工智能的话，那么就一定不能够忽视有关机器学习的内容。这时候就会有人问，什么是机器学习？所谓机器学习就是一门多领域交叉学科，涉及概率论、统计学、逼近论等多门学科。机器学习是专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的一门技术，而机器学习中随机森林是一个十分重要的算法，在这篇文章中我们就详细给大家介绍一下随机森林的相关知识。

一般来说，随机森林是用于分类和回归的监督式集成学习模型。为了要使整体性能更好，因此集成学习模型聚合了多个机器学习模型。这是因为每个模型单独使用时性能表现的不是很好，但如果放在一个整体中则很强大。在随机森林模型下，使用大量弱因子的决策树，来聚合它们的输出，结果能代表更强的集成。

大家可能知道的是，在任何机器学习模型中，有两个误差来源:偏差和方差。当然，随机森林也不例外，为了更好地说明这两个概念，我们假设已经创建了一个机器学习模型并已知数据的实际输出，用同一数据的不同部分对其进行训练，结果机器学习模型在数据的不同部分产生了不同的输出。

为了确定偏差和方差，对这两个输出进行比较，偏差是机器学习模型中预测值与实际值之间的差异，而方差则是这些预测值的分布情况。这就是随机森林的偏差和方差。而简单来说，偏差是当算法作了太多简化假设之后出现的错误，这导致模型预测值与实际值有所出入。方差是由于算法对训练数据集中小变化的敏感性而产生的误差；方差越大，意味着算法受数据变化的影响更大。其实对于偏差和方差大家不必担心，这是因为理想情况下，偏差和方差都会很小，这意味模型在相同数据集的不同数据中的预测值很接近真值。当这种情况发生时，模型可以精确地学习数据集中的潜在模式。

在这篇文章中我们介绍了机器学习的概念以及机器学习的两个误差来源导致的原因，其实这些误差都是可以避免的，随机森林就可以减小这种误差，那么随机森林怎么减小这个误差呢，随机森林有什么优缺点呢？我们在下一篇文章中继续为大家介绍这些内容。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；