学习曲线--帮你清晰判断过拟合和欠拟合-CDA数据分析师官网

热线电话：13121318867

首页大数据时代学习曲线--帮你清晰判断过拟合和欠拟合

学习曲线--帮你清晰判断过拟合和欠拟合

2020-07-09

前面小编给大家简单介绍过拟合和欠拟合时，提到了一个概念：学习曲线，我们通过学习曲线能够很清晰的判别出模型现在说出的状态是欠拟合还是过拟合，下面小编具体整理了学习曲线的相关内容，希望对大家有所帮助。

学习曲线(learning curve)是不同训练集大小，模型在训练集和验证集上的得分变化曲线。横坐标为·样本数，纵坐标为训练和交叉验证集上的得分(如准确率)。

模型在新数据上的表现如何，都能清晰地在展现在学习去线上，我们也能通过这些表现，进而判断模型是否方差偏高或者偏差过高，以及增大训练集是否可以减小过拟合。

如图所示：

(1)当训练集和测试集的误差收敛但却很高时，为高偏差。

左上图中训练集和验证集上的曲线能够收敛，但偏差很高，训练集和验证集上准确率相差很大，却都很差。这种情况下模型对已知数据和未知数据都不能进行准确的预测，很可能是欠拟合。

方法：

增加模型参数，采用更复杂的模型，减小正则项。

注意：此时通过增加数据量是不起作用的。

(2)当训练集和测试集上误差之间有大的差距时，为高方差。

当训练集的准确率比其他独立数据集上的测试结果的准确率要高时，一般都是过拟合。

右上图中，训练集和验证集的准确率差距很大，这种情况下，模型能够很好的拟合已知数据，但是泛化能力不足，属于高方差，很可能是过拟合。

方法：

增大训练集，降低模型复杂度，增大正则项，或者通过特征选择减少特征数。

(3)右下方图，也是最理想情况：找到偏差和方差都很小的状态，就是收敛而且误差较小。

学习曲线的具体操作：

len(X_train) 个训练样本，训练出 len(X_train) 个模型，第一次使用一个样本训练出第一个模型，第二次使用两个样本训练出第二个模型，… ，第 len(X_train) 次使用 len(X_train) 个样本训练出最后一个模型;

每个模型对于训练这个模型所使用的部分训练数据集的预测值：y_train_predict = 模型.predict(X_train[ : i ]);

每个模型对于训练这个模型所使用的部分训练数据集的均方误差：mean_squared_error(y_train[ : i ], y_train_predict);

每个模型对于整个测试数据集的预测值：y_test_predict = 模型.predict(X_test)

每个模型对于整个测试数据集的预测的均方误差：mean_squared_error(y_test, y_test_predict);

绘制每次训练模型所用的样本数量与该模型对应的部分训练数据集的均方误差的平方根的关系曲线：plt.plot([i for i in range(1. len(X_train)+1)],np.sqrt(train_score), label=“train”)

绘制每次训练模型所用的样本数量与该模型对应的测试数据集的预测的均方误差的关系曲线：plt.plot([i for i in range(1. len(X_train)+1)],np.sqrt(test_score), label=“test”)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

学习曲线过拟合偏差欠拟合特征泛化能力

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇教你用数据分析的方法填报志愿

下一篇mysql数据库（库操作和表操作）常用基本命令汇总

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

学习曲线--帮你清晰判断过拟合和欠拟合

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载