京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS实例教程:多重线性回归,你用对了么
在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析一个因变量与多个自变量之间的关联性。
一、多重线性回归的作用
多重线性回归模型在医学研究领域得到了广泛的应用,其作用主要体现在以下几个方面:
1、探索对于因变量具有影响作用的因素;
2、控制混杂因素,评价多个自变量对因变量的独立效应;
3、用已知的自变量来估计和预测因变量的值及其变化。
二、多重线性回归的形式
多重线性回归的一般表达形式为:
由表达式可以看出,每个因变量的实际测量值yi由两部分组成,即
和ei 。
为估计值,即在给定自变量取值时因变量y的估计值,表示能由自变量决定的部分;ei为残差,即因变量实测值yi与估计值
之间的差值,表示不能由自变量决定的部分,而对于残差的分析是多重线性回归建模过程中需要重点关注的地方。
此外在多线性回归的表达式中,b0为常数项,表示当所有自变量取值为0时因变量
的估计值;bi为偏回归系数,表示当其他自变量不变时,xi每改变一个单位时所引起的的
变化量。
三、多重线性回归的适用条件
多重线性回归模型作为一种统计模型,它有严格的适用条件,在建模时也需要对这些适用条件进行判断。但是许多使用者往往忽视了这一点,在使用过程中只是单一的构建模型,最终很有可能得出错误的结论。因此在应用多重线性回归之前,我们应该了解它需要满足哪些前提条件呢?
总结起来可用4个词来概况:线性(Linear),独立(Independence),正态(Normality),齐性(Equal variance),缩写为LINE原则。
(1) 线性:各自变量xi与因变量yi之间存在线性关系,可以通过绘制散点图来进行判断;
(2) 独立:因变量yi的取值之间相互独立,反映到回归模型中,实际上就是要求残差ei之间相互独立;
(3) 正态性:构建多重线性回归模型后,残差ei服从正态分布;
(4) 方差齐性:残差ei的大小不随xi取值水平的变化而变化,即残差ei具有方差齐性。
只有准确把握了LINE核心原则,才能够保证构建符合统计学要求的多重线性回归模型。但是,由于多重线性回归模型具有一定的“抗偏倚性”,如果只是想通过构建方程来探讨自变量和因变量之间的关联性,而非对因变量进行预测,那么后面两个条件可以适当放宽。
此外,还应该注意以下几点:
(5) 因变量yi为连续性变量,而非分类变量;
(6) 自变量xi可以为连续变量,也可以为分类变量,当自变量为多分类无序变量时,则需要设置哑变量,当为有序变量时,则需要根据等级顺序进行赋值。
(7) 对于自变量xi的分布特征没有具体的限定,只要求自变量xi间相互独立,不存在多重共线性;
(8) 对于样本量的要求,根据经验一般要求样本量应当为纳入模型的自变量的20倍以上为宜,比如模型纳入5个自变量,则样本量应当在100以上为宜。
四、SPSS实例操作
1. 研究设计
某研究人员收集了100名研究者的最大摄氧量(VO2max),并记录了他们的年龄,体重,心率和性别,拟探讨年龄,体重,心率和性别对VO2 max的影响,并希望能够根据一个人的年龄,体重,心率和性别来对他的VO2 max值进行评估和预测。
2. 录入数据
SPSS数据文件如图所示,分析数据结构:
因变量VO2max为连续变量,满足上述条件(5);
自变量中年龄(age),体重(weight),心率(heart_rate)为连续变量,性别(gender)(女=0,男=1)为二分类变量,满足条件(6);
样本量为100,纳入的自变量为4个,满足条件(8)中大于20倍的要求。在满足上述几个基本条件后,根据研究目的研究人员拟采用多重线性回归的方法来进行统计分析,而对于其他几点适用条件我们将在后面的介绍中进行一一验证。
3. 多重线性回归操作
(1)选择Analyze → Regression → Linear
在Linear Regression对话框中,将VO2max选入Dependent,将age,weight,heart_rate,gender选入Independent(s)中。
点击Method下拉列表,会出现Enter,Stepwise,Remove,Backward,Forward共5种方法可供选择,这里选择默认的Enter法,表示将所有的变量都纳入到回归模型中。(自变量筛选共有5种方法,每种方法的区别我们将会在以后的内容中进行详细介绍。)
(2)点击Statistic选项
在Regression Coefficients复选框中,勾选Estimates和Confidence Intervals Level(%)并设定为95,可输出自变量的回归系数及其95%可信区间。
选择Model fit,输出模型拟合优度的检验结果;选择Descriptive,输出对所有变量的基本统计描述;选择Part and partial correlations,输出自变量之间的相关系数;选择Collinearity diagnostics,输出对自变量进行共线性诊断的统计量。
在Residus复选框中,选择Durbin-Watson,输出值用于判断残差之间是否相互独立。选择Casewise Diagnositics,默认在3倍标准差内来判定离群点。一般来说,95%的值在 ± 2倍标准差内,99%的值在 ± 2.5倍标准差内,可根据具体情况来进行设定。
(3)点击Save选项
在Predicted Values复选框中选择Unstandardized,保存模型对因变量的原始预测值,在Residuals是复选框中选择Standardized,保存均数为0标准差为1的标准化残差值,在Prediction Intervals复选框中选择Individuals,设定Confidence Intervals为95%,保存个体预测值的95%可信区间。
(数据标准化:用观察值减去该变量的均数,然后除以标准差所得,标准化后数据的均数为0,标准差为1,经标准化的数据都是没有单位的纯数量。)
(4)点击Plot选项
在Plots对话框中将*ZRESID(标准化残差)放入Y轴,将*ZPRED(标准化预测值)放入X轴,绘制残差散点图;同时选择Histogram和Normal probability plot来绘制标准化残差图,考察残差是否符合正态分布;选择Produce all partial plots绘制每一个自变量与因变量残差的散点图。
(5)点击Continue回到Linear Regression主对话框,点击OK完成操作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06在机器学习建模过程中,特征选择是决定模型性能的关键环节——面对动辄几十、上百个特征的数据(如用户画像的几十项维度、企业经 ...
2026-02-06在CDA(Certified Data Analyst)数据分析师的日常实操中,表格结构数据是贯穿全流程的核心载体,而对表格数据类型的精准识别、 ...
2026-02-06在日常办公数据分析中,我们经常会面对杂乱无章的批量数据——比如员工月度绩效、产品销售数据、客户消费金额、月度运营指标等。 ...
2026-02-05在分类模型(如风控反欺诈、医疗疾病诊断、客户流失预警)的实操落地中,ROC曲线是评估模型区分能力的核心工具,而阈值则是连接 ...
2026-02-05对CDA(Certified Data Analyst)数据分析师而言,数据分析的价值不仅在于挖掘数据背后的规律与洞察,更在于通过专业的报告呈现 ...
2026-02-05在数据分析实战中,我们经常会遇到“多指标冗余”的问题——比如分析企业经营状况时,需同时关注营收、利润、负债率、周转率等十 ...
2026-02-04在数据分析场景中,基准比是衡量指标表现、评估业务成效、对比个体/群体差异的核心工具,广泛应用于绩效评估、业务监控、竞品对 ...
2026-02-04业务数据分析是企业日常运营的核心支撑,其核心价值在于将零散的业务数据转化为可落地的业务洞察,破解运营痛点、优化业务流程、 ...
2026-02-04在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29