SPSS进行逐步回归分析
在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:
以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。
y:历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株) x2:前年冬季极端气温 x3:5月份最高气温 x4:5月份最低气温 x5:3~5月份降水量 x6:4~6月份降水量 x7:3~5月份均温 x8:4~6月份均温 x9:4月份降水量 x10:4月份均温 |
x11:5月份均温 |
1)准备分析数据
在SPSS数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。数据工作区如下图3-1显示。
图3-1
2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图3-2所示的线性回归过程窗口。
图3-2 线性回归对话窗口
3) 设置分析变量
设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。
设置自变量:将左边变量列表中的“x1”~“x21”变量,全部选移到“Independent(S)”自变量栏里。
设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。
选择标签变量: 选择“年份”为标签变量。
选择加权变量: 本例子没有加权变量,因此不作任何设置。
4)回归方式
在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图3-3。
图3-3
5)设置变量检验水平
在图6-15主对话框里单击“Options”按钮,将打开如图3-4所示的对话框。
图3-4
“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。
其中“Use probability of F”选项,提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。
“Ues F value” 选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。
本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图6-17所示。
图6-17窗口中的其它设置参照一元回归设置。
6)设置输出统计量
在主对话图3-2窗口中,单击“Statistics”按钮,将打开如图6-18所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:
图3-5 “Statistics”对话框
①“Regression Coefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。
“Covariance matrix”回归系数的方差-协方差矩阵。
本例子选择“Estimates”输出回归系数和相关统计量。
②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;
“All cases”选择所有观测量。
本例子都不选。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。
“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。
“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。
“Part and partial correlation”相关系数和偏相关系数。
“Collinearity diagnostics”显示单个变量和共线性分析的公差。
本例子选择“Model fit”项。
7)绘图选项
在主对话框单击“Plots”按钮,将打开如图3-6所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。
图3-6“Plots”绘图对话框窗口
左上框中各项的意义分别为:
“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:
“Histogram”用直方图显示标准化残差。
“Normal probability plots”比较标准化残差与正态残差的分布示意图。
“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。
本例子不作绘图,不选择。
8) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图3-7所示的对话框。
图3-7“Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized 标准化预测值。
Adjusted 调整后预测值。
S.E. of mean predictions 预测值的标准误。
本例选中“Unstandardized”非标准化预测值。
②“Distances”距离栏选项:
Mahalanobis: 距离。
Cook’s”: Cook距离。
Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项:
Mean: 区间的中心位置。
Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放
预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
Confidence Interval:置信度。
本例不选。
④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。
⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。
“Studentized”学生氏化残差。
“Deleted”删除残差。
“Studentized deleted”学生氏化删除残差。
本例不选。
⑦“Influence Statistics” 统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。
“Standardized DfBeta(s)”标准化的DfBeta值。
“DiFit” 删除一个特定的观测值所引起的预测值的变化。
“Standardized DiFit”标准化的DiFit值。
“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
9)提交执行
在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表6-10至表6-13。
10) 结果分析
主要结果:
表6-10 是逐步回归每一步进入或剔除回归模型中的变量情况。
表6-11 是逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
表6-12 是逐步回归每一步的回归模型的方差分析,F值为10.930,显著性概率是0.001,表明回归极显著。
表6-13 是逐步回归每一步的回归方程系数表。
分析:
建立回归模型:
根据多元回归模型:
从6-13中看出,过程一共运行了四步,最后一步以就是表中的第4步的计算结果得知:21个变量中只进入了4个变量x15、x4、x7 和 x5。
把表6-13中“非标准化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程:
预测值的标准差可用剩余标准差估计:
回归方程的显著性检验:
从表6-12方差分析表第4模型中得知:F统计量为622.72,系统自动检验的显著性水平为0.0000(非常小)。
F(0.00001,4,7)值为70.00。因此回归方程相关非常非常显著。
由回归方程式可以看出,在陕西长武烟草蚜传病毒病8月份的病情指数(y)与x4(5月份最低气温)、x15(第一次蚜迁高峰期百株烟草有翅蚜量)呈显著正相关,而与x5(3~5月份降水量)和x7 (3~5月份均温)呈显著负相关。
通过大田调查结果表明,烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。迁入烟田的有翅蚜有两次高峰期,呈双峰曲线。第一高峰期出现在5月中旬至6月初,此次迁飞的高峰期与大田发病率呈显著正相关。第二高峰期在6月上旬末至6月中旬,此次迁飞高峰期与大田发病率关系不大。5月份的最低气温(x4)和3~5月份均温(x7 )通过影响传媒介体蚜虫的活动来影响田间发病。而第一次蚜迁高峰期百株烟草有翅蚜量(x15)是影响烟草蚜传病毒病病情指数(y)的重要因子。3~5月份降水量(x5)通过影响田间蚜虫传病毒病发病植株的症状表现影响大田发病程度。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02