回归系列（四）| 一个完整的线性回归是怎样做的-CDA数据分析师官网

热线电话：13121318867

首页大数据时代回归系列（四）| 一个完整的线性回归是怎样做的

回归系列（四）| 一个完整的线性回归是怎样做的

2020-09-07

作者：丁点helper

来源：丁点帮你

前面的文章主要介绍了回归的一些关键词，比如回归系数、样本和总体回归方程、预测值和残差等，今天我们结合一个案例来看看如何做完整的回归分析，准确而言，是多重线性回归（Multiple Linear Regreesion）。

回顾：多重线性回归

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

在实际应用中，我们当然很少只纳入一个自变量。多重线性回归一般也叫“多元线性回归”，我更支持“多重”的叫法，因为“多元”一般也指“因变量Y”有多个。

通过前面的文章，我们知道做线性回归就是要构建Y与X的线性关系，主要目的有两个，一是确定X对Y的影响程度（即回归系数的计算）；二是通过X来预测Y。

这里最重要的一条准则是：Y需要是定量变量，就是类似于“收入”、“得分”等。而对X没有这样的要求，可以是定量的，如“教育年限”、“年龄”等；也可以是“性别”、“民族”等分类变量。

案例从某高校三年级女生体检的数据中，随机抽取20名作为样本，数据包括体重(kg)、胸围(cm)、肩宽(cm)及肺活量(L)，分析女大学生肺活量的影响因素，数据见下表：

首先简单看看上表的数据，我们想要研究女生肺活量的影响因素，所以回归的因变量为“肺活量（Y）”，根据常识和数据，这里的Y是定量变量。

搜集的其他数据作为潜在的影响因素（X）纳入回归方程，分别是：体重、胸围、肩宽。我们也能简单就能判断这三个自变量都是定量变量。

（对于变量类型如何判断还不太了解的同学，戳此回顾）

这里进行回归分析，一是判断这些X是否都会影响Y（总体回归系数是否不为0）；二是通过构造的回归方程，未来根据X的值计算Y的预测值。

多重线性回归的SPSS操作

回归分析用SPSS操作的步骤如下：

SPSS数据录入格式

SPSS回归分析的菜单（Linear代表线性回归）

回归操作窗口，Dependent为因变量，Independent为自变量，分别移入

上图中的“Method”称作“自变量筛选”方法，我们做线性回归分析很重要的一点是找Y的影响因素，这里的“找”就意味着“筛选”。

比如本案例我们纳入了三个自变量，通过回归分析，就是要找到那些真正对Y产生影响的变量。最终的结果有可能三个X都有影响，则最终的回归方程会有三个X，也有可能一个X都没有。

我们看到Method的下拉菜单有不同的选项：

Enter：将自变量强行全部纳入回归方程，不排除回归系数P值大于0.05的情况；

Stepwise、Remove、Backward、Forward，这些都是软件筛选自变量的方法，虽然名称不一，但思想相近，主要就是根据回归系数检验的P值是否小于0.05（有的是0.1）判断回归方程中应不应该有这个变量。

一般来讲，没有哪个筛选方法最优，但实际应用中常见的是Stepwise和Backward，建议大家自己进行回归分析时可以更换不同的方法尝试，选择自己认为合适的方法。

本案例使用Stepwise法，中文称为“逐步法”或“步进法”。

多重线性回归的结果分析

以下为SPSS分析结果展示：

表1：回归方程的拟合程度

上表最左侧一列为“Model”，表示的是SPSS筛选变量的过程，因为我们选择的是stepwise，所以每进行一步，即每筛选一个变量，就称为一个Model，比如Model"1"表示只纳入1个自变量，Model“2”表示纳入2个，“3”表示纳入3个，”4“表示最终模型剔除了一个自变量，仅纳入2个自变量。

表格第2-4列分别为”R、R Square、Adjusted R Square“，一般的教科书讲的很多，表示的是回归方程对因变量的解释程度，数值越大，解释度越高。但它又是一个比较尴尬的数，实际应用简单参考即可。

表2：回归方程的整体检验

这里的Model和上表1中表示的是同一个意思，代表了包括不同自变量的回归方程。对于回归方程的检验，一般来讲，都是有统计学意义的，看最后一列（Sig.）,即P值均小于0.05。

表3：回归系数结果

表3中的Model详细展示了变量的筛选过程，比如在Model 3中，回归方程将三个自变量”肩宽、体重、胸围“全部纳入，但是发现，”肩宽“这个变量的Sig.（P值）大于0.1了，于是就将它剔除出去，从而得到模型4——只纳入”体重和胸围“两个自变量，对照后面的P值结果，均小于0.05。

以上只是一种筛选变量的一种方法（Stepwise），通过统计软件P值自动进行，这并不意味，所有的线性回归分析均只能通过这种方法筛选，我们常说需要结合专业知识判断，在做回归分析时也不例外。

如果回归分析的结果与专业知识相悖，比如根据专业知识有影响的变量却被软件剔除，那我们首先得慎重思考回归的结果是否可信，比如是否满足前文提及的LINE条件，是否出现了多重共线性问题等等；如果经过诊断分析发现这些问题都不存在，在研究报告或论文中，仍可以如实地报告结果，为后面的研究提供参考。

本案例，我们还是依照统计软件的结果筛选变量，得到的最终回归方程为：

根据上表，我们写出本研究的回归方程：

上述结果表示，可以认为体重和胸围是影响该校一年级女大学生肺活量的主要因素，保持胸围不变，体重增加1kg，估计肺活量平均增加0.081L（回归系数”0.081“的含义，在多重线性回归分析中也可称作”偏回归系数“）；保持体重不变，胸围增大1cm，估计肺活量平均增加0.046L（回归系数”0.046“的含义）。

另外，上表最后一列提供了一个”标准化偏回归系数“，这是将XY分别标准化之后再进行回归分析，如下：