过拟合(over-fitting)出现的原因及相应的解决方法-CDA数据分析师官网

热线电话：13121318867

首页大数据时代过拟合(over-fitting)出现的原因及相应的解决方法

过拟合(over-fitting)出现的原因及相应的解决方法

2020-07-08

过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。

通过学习曲线来理解：

当某个模型对训练数据中的细节和噪音学习过度之后，会使得模型在新的数据上表现很不好，这是就是过拟合·。这种情况意味着模型把训练数据中的噪音或者随机波动也被当做概念学习了。但是这些概念不适用于新的数据，从而导致模型泛化能力的越来越差。

1.过拟合常见原因

1)根本的原因则是特征维度(或参数)过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。

2)建模样本选取有误，如样本数量太少，数量级要小于模型的复杂度，或者选样方法错误，样本标签错误等，导致样本数据不足以代表预定的分类规则;

3)样本噪音干扰过大，模型过分记住了噪音特征，从而扰乱了预设的分类规则;

4)假设的模型无法合理存在，或者说是假设成立的条件实际并不成立;

5)对于决策树模型，如果我们对于其生长没有合理的限制，其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event)，使其虽然可以完美匹配(拟合)训练数据，但是无法适应其他数据集。

6)对于神经网络模型：

a)对样本数据可能存在分类决策面不唯一，随着学习的进行,，BP算法使权值可能收敛过于复杂的决策面;

b)权值学习迭代次数足够多(Overtraining)，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

2.过拟合问题解决方法

1)重新清洗数据;

2)增大数据的训练量;

3)采用正则化方法，包括L0正则、L1正则和L2正则;

4)减少特征数量;

5)降低模型的复杂度；

6)使用Dropout（只适用于神经网络中，将隐藏层的神经单元按一定比例去除，使神经网络的结构简单化）

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

过拟合特征神经网络决策树学习曲线泛化能力机器学习深度学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何理解欠拟合？常用的处理方法有哪些？

下一篇对于KNN算法概念以及原理的简单理解

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

过拟合(over-fitting)出现的原因及相应的解决方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载