过拟合的原因是算法的学习能力过强;一些假设条件(如样本独立同分布)可能是不成立的;训练样本过少不能对整个空间进行分布估计。
处理方法:1 早停止:如在训练中多次迭代后发现模型性能没有显著提高就停止训练2 数据集扩增:原有数据增加、原有数据加随机噪声、重采样3 正则化,正则化可以限制模型的复杂度4 交叉验证5 特征选择/特征降维6 创建一个验证集是最基本的防止过拟合的方法。我们最终训练得到的模型目标是要在验证集上面有好的表现,而不训练集