欠拟合产生的原因有哪些？应该如何解决？-CDA数据分析师官网

热线电话：13121318867

登录

首页大数据时代欠拟合产生的原因有哪些？应该如何解决？

欠拟合产生的原因有哪些？应该如何解决？

2020-07-23

收藏

对于机器学习或者是深度学习模型来说，我们既希望这个模型能在训练数据中表现良好(训练误差)，又希望这个模型在测试集中也能有良好的表现(泛化误差)。而过拟合和欠拟合就是用来描述泛化误差的。欠拟合问题与过拟合问题，一直是模型训练中的难题，我们常常需要对这二者进行权衡，今天小编给大家整理、分享的就是欠拟合问题产生的原因以及解决办法，希望对大家有所帮助。

一、什么是欠拟合

欠拟合underfiting / high bias，就是指模型不能在训练集上获得足够低的误差，在训练集、验证集以及测试集上均表现不佳的情况。用偏差和方差来解释就是，欠拟合的时候为高偏差(偏差描述的是模型的期望输出与真实输出之间的差异)。

出现欠拟合的原因是模型尚未学习到数据的真实结构。因此欠拟合可以简单理解为：模型对训练数据的信息提取不充分，并没有学习到数据背后的规律，导致模型应用在测试集上时，无法做出正确的判断。

欠拟合，模型拟合程度不高，数据距离拟合曲线较远，不能够很好地拟合数据。

图中第一个模型欠拟合，无法学习到数据的有效特征

二、欠拟合解决办法

1、做特征工程，添加其他特征项，有时候欠拟合出现的原因是：特征项不够，没有足够的信息支持模型做判断。这时候我们可以通过添加其他特征项来解决。例如，“组合”、“泛化”、“相关性”、“上下文特征”、“平台特征”等等，都能够作为特征添加的首选项。

2、添加多项式特征，这种做法在机器学习算法里面很常用，举个例子，比如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

3、减少正则化参数，正则化的目标是：防止过拟合的，现在模型是欠拟合，就需要减少正则化参数。

4、增加模型复杂度。模型如果太简单，就不能应对复杂的任务。我们可以通过使用更加复杂的模型，来减小正则化系数。比如可以使用核函数，集成学习方法(集成学习方法boosting(如GBDT)能有效解决high bias)，深度学习等。

以上就是小编今天跟大家分享的一些欠拟合的相关知识，希望对大家处理和解决欠拟合问题有所帮助。其他机器学习和深度学习的知识，小编也会继续整理，希望大家多多关注。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

欠拟合特征偏差过拟合机器学习深度学习集成学习特征工程

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇正则化---提高深度学习模型的泛化能力

下一篇过拟合是如何产生的？有什么好的解决方法？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

更多

Copyright © 2015-2021, www.cda.cn All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有京ICP备11001960号-9

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

OK

客服在线

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册