登录
首页精彩阅读回归系列(五)| 线性回归分析做完后,还应考虑什么?
回归系列(五)| 线性回归分析做完后,还应考虑什么?
2020-09-09
收藏

作者:丁点helper 

来源:丁点帮你

上一篇文章介绍了一般线性回归的典型操作,并且留了一个思考题。感谢小伙伴的参与,大家很厉害,没有被迷惑到,线性回归获得的系数代表的是相关关系,而非因果关联。

回归是相关不是因果

多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归

因为,回归的使用仅能说明数据之前存在关联,但这种关联是否真正代表了两者的内在联系还需要更深入的研究。

之所以采用回归分析,就是通过纳入多个自变量,达到控制混杂因素的作用,但是我们无法纳入所有可能的因素,即所谓的“遗漏变量”(omitted variables),从而导致回归的结果不准确。

例如,探究教育程度与收入的关系,如果我们在回归分析中没有纳入“父母的平均教育程度”这个变量,此时,这个变量就被称为“遗漏变量”。

根据常识,父母的教育程度应该是孩子未来收入的重要影响因素,同时也几乎决定了孩子的教育程度。因此,遗漏这个变量有可能让我们得出有偏差的结果(一般会高估个人教育程度对未来收入的影响)。

同时,如果X与Y之间的关系,不是X导致Y,而是Y导致X(称作“反向因果”),此时的回归分析也会得出有统计学意义的结果(总体回归系数不为0)。

但这个结果无法显示相关关系的方向,即无法判断是X→Y,还是Y→X,从而误导我们的判断。

例如,常有人说,一个国家保护私人产权制度越完善,这个国家就越富裕。

这意味着完备的产权促进了国家经济的发展,于是人们建议:贫穷的国家都要实施良好的私有产权保护。

不可否认,产权对提升经济发展的确有作用。但我们不能忽略这其中的反向因果。

也就是说,很有可能是一个国家富裕之后才开始注意产权保护,产权制度才会更加完善,由此,并非是产权促进了经济的发展,而是经济发展促进了产权的完善。

所以,我们不能只从两组数据的相关就推测因果,除了那些没有纳入考虑的变量,反向因果也有可能对我们进行误导。

由此来看,回归分析更像是一种探索,它提供某种线索,启示我们下一步的研究方向。

回归诊断——残差图

多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归

回归分析有时候之所以不能揭示因果,除了上面谈到的遗漏变量效应和反向因果外,某些假设条件的违反也会导致回归的结果不准。

所以,我们要牢记做完回归并不意味着万事大吉,进行必要的诊断性分析十分必要。

回归诊断,就是通过各种方法来验证回归分析的假设条件以及其他因素的影响,这里我们重点讲讲回归LINE条件的诊断和多重共线性的识别。

前文我们提到过做线性回归的时候一般需满足:线性、独立、正态、方差齐(LINE)条件。

对这些假设条件的诊断其实有各种各样的办法,其中一种使用十分广泛,简单易学,同时效率也比较高的做法是作残差图。

画残差图,一般是以回归分析Y的预测值为横轴,以残差为纵轴做散点图

如果打开SPSS,可以看到回归分析模块中有很多种残差:未标准化、标准化、学生化等等。

简单起见,大家可以选择所谓的“学生化”残差。

不知有同学是否了解过,什么叫“学生化残差”?(不能再古怪了!)

实际上,它和我们前面学习的t检验还有联系。

t检验发明者的笔名就叫“学生”,即student,所以这里的“学生化残差”可以简单理解为一种t变换(与标准化,即z变换类似)。

具体的细节感兴趣的同学可以去查一查。在我们的具体应用中,采用“学生化残差”和“预测值”做散点图还是挺简单的,而且可以发现一些问题。

一条原则:如果线性回归效果较好,则残差图的各个散点会围绕着“残差=0”水平线上下均匀分布,如下图中的红线。

这可能是最简单的诊断方法,通过观察散点在上述红线上下的分布情况来推测回归分析的质量,同时提示需要改进的方向。

例如,下面这张散点图,就提示Y与自变量X之间可能存在某种曲线关系。

当增加某个自变量的二次项后,回归被改善。

没有添加任何二次项

增加x1的二次项,拟合效果提示

除此以外,线性回归诊断另一个常见的问题是,当自变量X之间互相存在高度相关性时,会导致回归方程估计结果不稳定,回归系数的标准误大大增加(可以通过数学公式证明,标准误计算的分母因为X之间的相关系数而变大,从而整个标准误变小),称为共线性。

共线性最大的问题是,导致本身有意义(P<0.05)的结果变为无意义(P>0.05)。

SPSS在线性回归分析模块也有专门的共线性诊断指标,我们在分析时点选即可:

根据上一篇文章中的例子,共线性诊断的的指标均在要求之内,提示共线性问题不严重。

最后,如果线性回归的LINE没有通过诊断分析,需要怎样改进呢?如下图,大家作为参考,这些内容后期有机会我们逐渐给大家讲解。

数据分析咨询请扫描二维码

客服在线
立即咨询