 京公网安备 11010802034615号
			经营许可证编号:京B2-20210330
 京公网安备 11010802034615号
			经营许可证编号:京B2-20210330
		偏差与方差是我们在机器学习中经常遇到的两个概念,而且在有关机器学习的面试中,偏差与方差也经常拿来考验面试者的机器学习的基础知识。偏差与方差这两者看似简单,但要真正弄清楚两者之间的联系与区别,必须要下大功夫才可以。今天小编就为大家整理、分享偏差与方差的那些联系与区别。希望对大家有所帮助。
机器学习中,当我们用训练数据集去训练一个模型时,一般的做法就是定义一个误差函数,通过将这个误差的最小化过程,以此来提高模型的性能。但是,我们学习一个模型通常是为了解决训练数据集这一领域中的一般化问题,因此单纯地将训练数据集的损失最小化,并不能保证在解决更为一般的问题时,模型仍然是最优的,甚至连保证模型是否可用都不能保证。这个训练数据集的损失,与一般化的数据集的损失之间的差异,也就是泛化误差generalization error。而泛化误差又可以分解为以下三项:
偏差(Biase)、方差(Variance)和噪声(Noise)。
	 
 
偏差Biase:描述的是所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。偏差越大,越偏离真实数据,如上图第二行所示。
方差Variance:描述的是不同的训练数据集训练出的模型输出值之间的差异,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。
噪声Noise:是学习算法所无法解决的问题,数据的质量决定了学习的上限。假设在数据已经给定的情况下,此时学习的上限已经确定,而这时我们需要做的就是尽可能的接近这个上限。
	 
 
泛化误差
以回归任务为例, 学习算法的平方预测误差期望为:
	 
 
在一个训练集 D 上模型 f 对测试样本 x 的预测输出为 f(x;D), 那么学习算法 f 对测试样本 x 的 期望预测 为:
	 
 
上面的期望预测也就是针对 不同 数据集 D, f 对 x 的预测值取其期望, 也被叫做 average predicted。
使用样本数相同的不同训练集产生的方差为:
	 
 
噪声
噪声为真实标记与数据集中的实际标记间的偏差:
	 
 
期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:
	 
 
我们回忆下刚才提到的泛化误差:
	 
 
现在对该期望泛化误差进行分解:
	 
 
对最终的推导结果稍作整理:
	 
 
三、学习曲线
	 
 
我们通常用使用代价函数J,也就是平方差函数,来评价数据拟合程度好坏。在只关注Jtrain(θ)(训练集误差)的情况下,通常会导致过拟合,因此也必须要关注Jcv(θ)也就是交叉验证集误差。学习曲线 的横轴是样本数,纵轴为 训练集 和 交叉验证集 的 误差。
	 
 
高偏差:高偏差情况下,Jtrain(θ)和Jcv(θ)误差都很大,并且Jtrain很接近Jcv(θ)。对应欠拟合。
	 
 
高方差:Jtrain(θ)较小,Jcv(θ)误差很大。对应过拟合。
在实际优化情况下,更多的是对防止过拟合参数λ的调整,λ对应的是正则化系数,λ越大,代表着对过拟合的限制越强。下图就是λ和,Jtrain(θ)和Jcv(θ)理想曲线。
	 
 
	推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
 
                  数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23