回归系列（五）| 线性回归分析做完后，还应考虑什么？-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读回归系列（五）| 线性回归分析做完后，还应考虑什么？

回归系列（五）| 线性回归分析做完后，还应考虑什么？

2020-09-09

作者：丁点helper

来源：丁点帮你

上一篇文章介绍了一般线性回归的典型操作，并且留了一个思考题。感谢小伙伴的参与，大家很厉害，没有被迷惑到，线性回归获得的系数代表的是相关关系，而非因果关联。

回归是相关不是因果

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

因为，回归的使用仅能说明数据之前存在关联，但这种关联是否真正代表了两者的内在联系还需要更深入的研究。

之所以采用回归分析，就是通过纳入多个自变量，达到控制混杂因素的作用，但是我们无法纳入所有可能的因素，即所谓的“遗漏变量”（omitted variables），从而导致回归的结果不准确。

例如，探究教育程度与收入的关系，如果我们在回归分析中没有纳入“父母的平均教育程度”这个变量，此时，这个变量就被称为“遗漏变量”。

根据常识，父母的教育程度应该是孩子未来收入的重要影响因素，同时也几乎决定了孩子的教育程度。因此，遗漏这个变量有可能让我们得出有偏差的结果（一般会高估个人教育程度对未来收入的影响）。

同时，如果X与Y之间的关系，不是X导致Y，而是Y导致X（称作“反向因果”），此时的回归分析也会得出有统计学意义的结果（总体回归系数不为0）。

但这个结果无法显示相关关系的方向，即无法判断是X→Y，还是Y→X，从而误导我们的判断。

例如，常有人说，一个国家保护私人产权制度越完善，这个国家就越富裕。

这意味着完备的产权促进了国家经济的发展，于是人们建议：贫穷的国家都要实施良好的私有产权保护。

不可否认，产权对提升经济发展的确有作用。但我们不能忽略这其中的反向因果。

也就是说，很有可能是一个国家富裕之后才开始注意产权保护，产权制度才会更加完善，由此，并非是产权促进了经济的发展，而是经济发展促进了产权的完善。

所以，我们不能只从两组数据的相关就推测因果，除了那些没有纳入考虑的变量，反向因果也有可能对我们进行误导。

由此来看，回归分析更像是一种探索，它提供某种线索，启示我们下一步的研究方向。

回归诊断——残差图

回归分析有时候之所以不能揭示因果，除了上面谈到的遗漏变量效应和反向因果外，某些假设条件的违反也会导致回归的结果不准。

所以，我们要牢记做完回归并不意味着万事大吉，进行必要的诊断性分析十分必要。

回归诊断，就是通过各种方法来验证回归分析的假设条件以及其他因素的影响，这里我们重点讲讲回归LINE条件的诊断和多重共线性的识别。

前文我们提到过做线性回归的时候一般需满足：线性、独立、正态、方差齐（LINE）条件。

对这些假设条件的诊断其实有各种各样的办法，其中一种使用十分广泛，简单易学，同时效率也比较高的做法是作残差图。

画残差图，一般是以回归分析Y的预测值为横轴，以残差为纵轴做散点图。

如果打开SPSS，可以看到回归分析模块中有很多种残差：未标准化、标准化、学生化等等。

简单起见，大家可以选择所谓的“学生化”残差。

不知有同学是否了解过，什么叫“学生化残差”？（不能再古怪了！）

实际上，它和我们前面学习的t检验还有联系。

t检验发明者的笔名就叫“学生”，即student，所以这里的“学生化残差”可以简单理解为一种t变换（与标准化，即z变换类似）。

具体的细节感兴趣的同学可以去查一查。在我们的具体应用中，采用“学生化残差”和“预测值”做散点图还是挺简单的，而且可以发现一些问题。

一条原则：如果线性回归效果较好，则残差图的各个散点会围绕着“残差=0”水平线上下均匀分布，如下图中的红线。

这可能是最简单的诊断方法，通过观察散点在上述红线上下的分布情况来推测回归分析的质量，同时提示需要改进的方向。

例如，下面这张散点图，就提示Y与自变量X之间可能存在某种曲线关系。

当增加某个自变量的二次项后，回归被改善。

没有添加任何二次项

增加x1的二次项，拟合效果提示

除此以外，线性回归诊断另一个常见的问题是，当自变量X之间互相存在高度相关性时，会导致回归方程估计结果不稳定，回归系数的标准误大大增加（可以通过数学公式证明，标准误计算的分母因为X之间的相关系数而变大，从而整个标准误变小），称为共线性。

共线性最大的问题是，导致本身有意义（P＜0.05）的结果变为无意义（P＞0.05）。

SPSS在线性回归分析模块也有专门的共线性诊断指标，我们在分析时点选即可：

根据上一篇文章中的例子，共线性诊断的的指标均在要求之内，提示共线性问题不严重。

最后，如果线性回归的LINE没有通过诊断分析，需要怎样改进呢？如下图，大家作为参考，这些内容后期有机会我们逐渐给大家讲解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归回归分析散点图方差偏差相关系数

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python 中的数字到底是什么？

下一篇让你的数据动起来-动态柱状图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

回归系列（五）| 线性回归分析做完后，还应考虑什么？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载