机器学习之随机森林（二）-CDA数据分析师官网

热线电话：13121318867

机器学习之随机森林（二）

2019-02-20

在上一篇文章中我们简单给大家介绍了关于机器学习的知识，顺便也讲了讲机器学习误差的原因。其实不管是什么算法都是有方差和偏差存在的。在理想情况下，机器学习的误差就会小的很多。随机森林是可以减少方差的，而我们在上一篇文章中也留给大家两个问题，第一是随机森林是怎么减少这种误差？第二个问题是随机森林有什么优缺点。带着这两个问题，我们给大家介绍一下这些内容。

其实随机森林一种可以减少方差的算法，如果大家接触过决策树的话，那么大家一定知道，决策树以高方差、低偏差。这主要是因为它能够对复杂的关系，甚至是过拟合数据中的噪声进行建模。也就是说决策树训练的模型通常是精确的，但常常在同一数据集中的不同数据样本之间显示出很大程度的变化。而随机森林则是通过聚合单个决策树的不同输出来减少可能导致决策树错误的方差。通过多数投票算法，我们可以找到大多数单个树给出的平均输出，从而平滑了方差，这样模型就不容易产生离真值更远的结果。

说到这里，我们就不得不说一说随机森林的思想，随机森林思想是取一组高方差、低偏差的决策树，并将它们转换成低方差、低偏差的新模型。看到这里，大家的脑海里有一个问题，那就是为什么随机森林是随机的？这是因为随机森林中的随机来源于算法用训练数据的不同子集训练每个单独的决策树，用数据中随机选择的属性对每个决策树的每个节点进行分割。通过分割打乱元素，使其具有随机性。通过引入这种随机性元素，该算法能够创建彼此不相关的模型。这导致可能的误差均匀分布在模型中，意味着误差最终会通过随机森林模型的多数投票决策策略被消除。这就是随机森林的思想，同时也是随机森林为什么能够降低方差和偏差的原因。