回归系列（三）| 谈谈线性回归的残差和预测值-CDA数据分析师官网

热线电话：13121318867

首页大数据时代回归系列（三）| 谈谈线性回归的残差和预测值

回归系列（三）| 谈谈线性回归的残差和预测值

2020-09-02

作者：丁点helper

来源：丁点帮你

前面两篇文章，我们聚焦于线性回归的回归系数，理清了样本与总体回归方程的区别、回归系数的最小二乘法估计等问题，今天我们重点来看看线性回归的残差和预测值。

回归分析的残差

前面我们谈到过样本回归方程有两种写法：

这里，残差的头上也有一个“^”(hat)，意味着残差也有总体与样本之分。由上面残差的计算公式也可推知这一点，因为预测值有样本与总体之分，所以残差也自然也是有的。

我们做线性回归的时候一般需满足：

1）线性（L）：因变量与自变量之间呈线性关系；

2）独立（I）：各观测值相互独立；

3）正态（N）：自变量（X）固定时所对应的因变量（Y）服从正态分布；

4）方差齐（E）：不同自变量取值下因变量的方差相等。

以上四个条件即俗称的LINE条件。这些条件虽然是针对因变量而言的，但我们却可以通过对残差进行分析达到检验的目的。一般而言，如果残差满足以上四个条件，则称线性回归的假设条件得到满足。

（有关回归诊断的问题，后面我们会专门详细介绍。）

回归分析的预测值

看完残差，我们再来看看预测值。这里要指出回归方程的第三种写法（一般对于总体回归）：

看到 μ第一反应应该是均数，而且是总体均数（非样本均数），所以 μγ在相关教材上被称作“X取某个特定数值时，Y的条件总体均数”。

这里的“条件总体均数”估计会看晕不少人。所谓“条件”，意味着Y的取值是依据X的取值而定的，“X的取值”是确定Y的前提条件。

由此，严格来说， Ý应该是 μγ 的预测值。

这意味着给定X的取值，我们通过回归获得的是Y的一个平均值。比如前面文章中谈到的教育程度（X）和收入（Y）的回归方程：

当X=15时，可以计算得出 Ý=5000，严格来讲，这里算出的5000并非是某个人的具体收入，而是一群接受了15年教育的人，其收入的平均数。

因为即便是大家都接受了15年教育，但收入也并不完全相同，有的可能一两万，而有的也可能一两千。而我们通过回归获得是收入（Y）在教育程度为15年（X=15）的一个平均数。

理解了这一层，再看下面这图应该会比较轻松。

回归线与竖线的交点，即是回归预测值，也是这个正态曲线的均值。均值对应着正态分布的波峰，意味着即使这一群人的实际收入有差距，但大部分人仍然会围绕5000上下小幅波动（当X=15时）。

这里的正态分布之所以有四个，是因为在不同X的取值水平下，Y的取值会发生（系统性）的变化，即Y的均值会随着X的变化而变化。

这一点其实描述了回归最本质的意义，试想，如果Y的正态分布不随X变化，那意味就X不会对Y产生影响，则两者可能就不存在线性相关。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布线性回归方差回归分析最小二乘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇学习numpy，看这篇文章就够啦

下一篇【CDA专访】Pearson VUE全球高级副总裁加里·盖茨

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

回归系列（三）| 谈谈线性回归的残差和预测值

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载