登录
首页大数据时代过拟合(over-fitting)出现的原因及相应的解决方法
过拟合(over-fitting)出现的原因及相应的解决方法
2020-07-08
收藏

过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。

通过学习曲线来理解:

当某个模型对训练数据中的细节和噪音学习过度之后,会使得模型在新的数据上表现很不好,这是就是过拟合·。这种情况意味着模型把训练数据中的噪音或者随机波动也被当做概念学习了。但是这些概念不适用于新的数据,从而导致模型泛化能力的越来越差。

1.过拟合常见原因

1)根本的原因则是特征维度(或参数)过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差。

2)建模样本选取有误,如样本数量太少,数量级要小于模型的复杂度,或者选样方法错误,样本标签错误等,导致样本数据不足以代表预定的分类规则;

3)样本噪音干扰过大,模型过分记住了噪音特征,从而扰乱了预设的分类规则;

4)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;

5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。

6)对于神经网络模型:

a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;

b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征

2.过拟合问题解决方法

1)重新清洗数据;

2)增大数据的训练量;

3)采用正则化方法,包括L0正则、L1正则和L2正则;

4)减少特征数量;

5)降低模型的复杂度;

6)使用Dropout(只适用于神经网络中,将隐藏层的神经单元按一定比例去除,使神经网络的结构简单化)

数据分析咨询请扫描二维码

客服在线
立即咨询