机器学习要注意的事情（二）-CDA数据分析师官网

热线电话：13121318867

机器学习要注意的事情（二）

2019-02-14

关于机器学习需要注意的内容有很多，我们也在前面的文章中给大家介绍出了两点，讲述了机器学习是由表示、评价、优化组成以及泛化及其作用是十分重要的，在这篇文章中我们会继续为大家介绍更多有关机器学习需要了解的注意事项。

在这篇文章中我们主要给大家介绍一下机器学习需要注意的内容，那就是过拟合有多样性。一般我们在进行机器学习工作的时候我们会常常遇到这样一个问题，那就是如果我们所拥有的知识和数据不足以完全确定正确的分类器，那该怎么办？我们做出的很多决定都不是基于现实的，只是在数据中随机编码。这个问题就是过拟合，这是机器学习的难题。当学习者输出的分类器在训练数据上能达到100%准确度，但在测试数据上却只有一半的准确率，而实际上它在两个数据集上的输出结果都能达到七成的准确率，这就是我们所说的过拟合。

机器学习中的过拟合形式多种多样，而且也不会立即变得明显。理解过拟合的一种方法是将泛化误差分解为偏差和方差。偏差是一种学习者倾向于不断地学习同样的错误。而方差是学习随机事物的倾向。线性学习者有很高的偏差，因为当两个类之间的边界不是一个超平面的时候，学习者就无法归纳它。决策树不存在这个问题，因为它们可以表示任何布尔函数，但另一方面，它们可能会受到高方差的影响，那就是由相同现象产生的不同训练集的决策树通常是非常不同的，实际上它们应该是一样的。而交叉验证可以帮助对抗过拟合，我们可以通过使用它来选择决策树的最佳大小来学习。它不是万金油，因为如果我们用它来做太多的参数选择，它本身就会开始过拟合。当然除了交叉验证，还有很多方法可以对抗过度拟合。最受欢迎的是在评价函数中添加一个正则化项。在添加新结构之前执行像卡方这样的统计显著性测试，以确定这个类的分布是否真的不同于这种结构。当数据非常稀缺时，这些技术尤其有用。虽然如此，我们应该对某种技术能解决所有过度拟合问题的说法表示怀疑。