SPSS实例教程：多重线性回归，你用对了么-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读SPSS实例教程：多重线性回归，你用对了么

SPSS实例教程：多重线性回归，你用对了么

2017-09-27

SPSS实例教程：多重线性回归，你用对了么

在实际的医学研究中，一个生理指标或疾病指标往往受到多种因素的共同作用和影响，当研究的因变量为连续变量时，我们通常在统计分析过程中引入多重线性回归模型，来分析一个因变量与多个自变量之间的关联性。

一、多重线性回归的作用

多重线性回归模型在医学研究领域得到了广泛的应用，其作用主要体现在以下几个方面：

1、探索对于因变量具有影响作用的因素；

2、控制混杂因素，评价多个自变量对因变量的独立效应；

3、用已知的自变量来估计和预测因变量的值及其变化。

二、多重线性回归的形式

多重线性回归的一般表达形式为：

由表达式可以看出，每个因变量的实际测量值yi由两部分组成，即和ei 。

为估计值，即在给定自变量取值时因变量y的估计值，表示能由自变量决定的部分；ei为残差，即因变量实测值yi与估计值之间的差值，表示不能由自变量决定的部分，而对于残差的分析是多重线性回归建模过程中需要重点关注的地方。

此外在多线性回归的表达式中，b0为常数项，表示当所有自变量取值为0时因变量的估计值；bi为偏回归系数，表示当其他自变量不变时，xi每改变一个单位时所引起的的变化量。

三、多重线性回归的适用条件

多重线性回归模型作为一种统计模型，它有严格的适用条件，在建模时也需要对这些适用条件进行判断。但是许多使用者往往忽视了这一点，在使用过程中只是单一的构建模型，最终很有可能得出错误的结论。因此在应用多重线性回归之前，我们应该了解它需要满足哪些前提条件呢？

总结起来可用4个词来概况：线性(Linear)，独立(Independence)，正态(Normality)，齐性(Equal variance)，缩写为LINE原则。

(1) 线性：各自变量xi与因变量yi之间存在线性关系，可以通过绘制散点图来进行判断；

(2) 独立：因变量yi的取值之间相互独立，反映到回归模型中，实际上就是要求残差ei之间相互独立；

(3) 正态性：构建多重线性回归模型后，残差ei服从正态分布；

(4) 方差齐性：残差ei的大小不随xi取值水平的变化而变化，即残差ei具有方差齐性。

只有准确把握了LINE核心原则，才能够保证构建符合统计学要求的多重线性回归模型。但是，由于多重线性回归模型具有一定的“抗偏倚性”，如果只是想通过构建方程来探讨自变量和因变量之间的关联性，而非对因变量进行预测，那么后面两个条件可以适当放宽。

此外，还应该注意以下几点：

(5) 因变量yi为连续性变量，而非分类变量；

(6) 自变量xi可以为连续变量，也可以为分类变量，当自变量为多分类无序变量时，则需要设置哑变量，当为有序变量时，则需要根据等级顺序进行赋值。

(7) 对于自变量xi的分布特征没有具体的限定，只要求自变量xi间相互独立，不存在多重共线性；

(8) 对于样本量的要求，根据经验一般要求样本量应当为纳入模型的自变量的20倍以上为宜，比如模型纳入5个自变量，则样本量应当在100以上为宜。

四、SPSS实例操作

1. 研究设计

某研究人员收集了100名研究者的最大摄氧量（VO2max），并记录了他们的年龄，体重，心率和性别，拟探讨年龄，体重，心率和性别对VO2 max的影响，并希望能够根据一个人的年龄，体重，心率和性别来对他的VO2 max值进行评估和预测。

2. 录入数据

SPSS数据文件如图所示，分析数据结构：

因变量VO2max为连续变量，满足上述条件（5）；

自变量中年龄（age），体重（weight），心率（heart_rate）为连续变量，性别（gender）（女=0，男=1）为二分类变量，满足条件（6）；

样本量为100，纳入的自变量为4个，满足条件（8）中大于20倍的要求。在满足上述几个基本条件后，根据研究目的研究人员拟采用多重线性回归的方法来进行统计分析，而对于其他几点适用条件我们将在后面的介绍中进行一一验证。

3. 多重线性回归操作

(1)选择Analyze → Regression → Linear

在Linear Regression对话框中，将VO2max选入Dependent，将age，weight，heart_rate，gender选入Independent(s)中。

点击Method下拉列表，会出现Enter，Stepwise，Remove，Backward，Forward共5种方法可供选择，这里选择默认的Enter法，表示将所有的变量都纳入到回归模型中。（自变量筛选共有5种方法，每种方法的区别我们将会在以后的内容中进行详细介绍。）

(2)点击Statistic选项

在Regression Coefficients复选框中，勾选Estimates和Confidence Intervals Level（%）并设定为95，可输出自变量的回归系数及其95%可信区间。

选择Model fit，输出模型拟合优度的检验结果；选择Descriptive，输出对所有变量的基本统计描述；选择Part and partial correlations，输出自变量之间的相关系数；选择Collinearity diagnostics，输出对自变量进行共线性诊断的统计量。

在Residus复选框中，选择Durbin-Watson，输出值用于判断残差之间是否相互独立。选择Casewise Diagnositics，默认在3倍标准差内来判定离群点。一般来说，95%的值在 ± 2倍标准差内，99%的值在 ± 2.5倍标准差内，可根据具体情况来进行设定。

(3)点击Save选项

在Predicted Values复选框中选择Unstandardized，保存模型对因变量的原始预测值，在Residuals是复选框中选择Standardized，保存均数为0标准差为1的标准化残差值，在Prediction Intervals复选框中选择Individuals，设定Confidence Intervals为95%，保存个体预测值的95%可信区间。

（数据标准化：用观察值减去该变量的均数，然后除以标准差所得，标准化后数据的均数为0，标准差为1，经标准化的数据都是没有单位的纯数量。）

(4)点击Plot选项

在Plots对话框中将*ZRESID（标准化残差）放入Y轴，将*ZPRED（标准化预测值）放入X轴，绘制残差散点图；同时选择Histogram和Normal probability plot来绘制标准化残差图，考察残差是否符合正态分布；选择Produce all partial plots绘制每一个自变量与因变量残差的散点图。

(5)点击Continue回到Linear Regression主对话框，点击OK完成操作。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；