为什么说朴素贝叶斯是高偏差低方差？-CDA数据分析师官网

热线电话：13121318867

为什么说朴素贝叶斯是高偏差低方差？

2019-04-04

大家在学习机器学习的时候可能听说过一种算法，这种算法就是朴素贝叶斯算法，而很多人说朴素贝叶斯算法是高偏差低方差，在这篇文章中我们就详细的为大家介绍一下朴素贝叶斯为什么被说高偏差低方差的原因。

首先，我们假设知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型，然后拿到测试集去用，效果好不好要根据测试集的错误率来衡量。但很多时候，我们只能假设测试集和训练集的是符合同一个数据分布的，但是我们却拿不到真正的测试数据。那么问题来了，怎么在只看到训练错误率的情况下，去衡量测试错误率呢？

而由于训练样本很少，因此通过训练集得到的模型，不是真正正确的。而且，在实际中，训练样本往往还有一定的噪音误差，所以如果太追求在训练集上的完美而采用一个很复杂的模型，会使得模型把训练集里面的误差都当成了真实的数据分布特征，从而得到错误的数据分布估计。如果按照这样的结果，到了真正的测试集上就错的很明显了。但是也不能用太简单的模型，否则在数据分布比较复杂的时候，模型就不足以刻画数据分布，而体现为连在训练集上的错误率都很高，这种现象较欠拟合。过拟合表明采用的模型比真实的数据分布更复杂，而欠拟合表示采用的模型比真实的数据分布要简单。

当然，在统计学习框架下，大家刻画模型复杂度的时候，很多人认为模型的预测错误率是有两部分组成的，一部分是由于模型太简单而带来的估计不准确的部分，另一部分是由于模型太复杂而带来的更大的变化空间和不确定性。其实这样的想法是正确的，所以说，这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的，是一个被严重简化了的模型。所以，对于这样一个简单模型，大部分场合都会不准确部分大于不确定部分，也就是说高偏差而低方差。所以说在实际中，为了让错误率尽量小，我们在选择模型的时候需要平衡不准确和不确定性所占的比例，这样当模型复杂度上升的时候，偏差会逐渐变小，而方差会逐渐变大。

相信大家看了这篇文章以后已经知道了为什么说朴素贝叶斯是高偏差低方差的原因了吧？大家在进行机器学习的时候一定要做到对每个算法有比较深入的了解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；