机器学习中容易出现的误区-CDA数据分析师官网

热线电话：13121318867

机器学习中容易出现的误区

2019-02-22

在机器学习中很多人都可能有一定的误解，那就是认为复杂的事物容易出错，而简单的事物往往会得到极高的准确率，那么事实真的是这样的吗？在这篇文章中我们详细的给大家介绍一下这个问题，并给大家介绍一下特征的相关知识。

其实简单并不意味着准确。在机器学习中，这通常意味着，给定两个具有相同训练错误的分类器，两者中较简单的可能具有最低的测试错误。有关这一说法的证据在文献中经常出现，但事实上有很多反例，比如“天底下没有免费的午餐”定理也暗示它不可能是真的。

我们知道融合模型，融合模型有一个特点，那就是即使在训练误差已经达到零之后，通过添加分类器，增强融合模型的泛化误差仍然在不断提高。因此，与直觉相反，一个模型的参数数量与其过度拟合倾向之间没有必然的联系。其实，更复杂的观点是将复杂性等同于假设空间的大小，因为较小的空间允许假设由较短的符号表示。像上面有理论保证的那部分界限就可以被认为是在暗示更短的假设能更好地概括。这可以通过给空间中的假设分配更短的符号来进一步论证，这些空间我们是有先验偏好的。但是，把这看作准确性和简单性之间权衡的证据，就会是循环推理：我们做出假设，人们喜欢更简单的设计，如果它们是准确的，那就是因为我们的偏好是准确的，而不是因为在我们选择的表征方式上假设是简单的。由此我们可以发现，简单并不意味着准确。

而特征工程的重要性大家也是知道的，一般来说，特征选择也叫特征子集选择。是指从已有的 M 个特征中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。而特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点，连续的曲线或者连续的区域。