京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【连载5】如何用spss做加权最小二乘回归及岭回归
上一节我们讲到一般多元线性回归的操作方法。本节要介绍的是多元线性回归的其他几种情况。包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上一节中没有讨论完毕的如何解决多重共线性这个问题。
讲加权最小二乘回归之前,我们首先还是举个例子。假设我们想考察全国三十一个省的某种疾病的发病率和每个省的面积,平均气温等的关系,那么我们知道,这三十一个省的人口肯定是不同的。而且差距还蛮大。并且最重要的,我们知道,发病率的高低很可能和人口的多少有关系(考虑传染性,人口密度什么的),那么这个时候我们直接用最小二乘回归就不是那么合适了,我们更好的选择是加权最小二乘回归法。也就是说,当样本和某一个权数存在某种关系的时候,我们就用加权最小二乘回归。
在上一节中我们提到过在线性回归主面板最下边有一个WLS权重框框。在加权最小二乘回归方法里边,我们就要用到这个框框了。我们在设置变量的时候除了自变量和因变量,还要设置一个权数变量(在上述的医学例子里,这个变量可以是每个省的人口。在其他一些金融案例里边,比方研究高价股票和低价股票的波动时,由于这两种股票在其他因素相同时的波动幅度不同,因此需要设一个权数,这个权数可能就是自己设定的了。)然后我们把这个权数变量选入到WLS权重框里边。其他过程和一般线性回归一致。
解释结果的时候也和一般线性回归类似,只是有一个小小的地方需要大家注意一下。我们知道,模型汇总表里边的决定系数是一个比较重要的参考数据。它会告诉你你的方程能解释你的模型的百分之多少,从而从侧面考察了你的方程的合理性。但是不幸的是,这个决定系数在加权线性回归里边出现了比较严重的偏差。这个和决定系数的计算方法有关系。因此假如我们用同样的数据做一遍加权的回归,和一遍不加权的回归,往往会发现不加权的方程决定系数大于加权的。但是这个并不能代表不加权的方程就一定比加权后的准确。实际上加权以后的模型和不加权的模型到底孰优孰劣,好的那个方程又能好多少,这些问题spss都不能给出直接的数据。因此在使用加权最小二乘回归的时候应当格外谨慎。
此外,由于有时候权重并不特别明确,(比如上边那个金融的案例),这时候可以使用分析——回归——权重估计这个选项。这个选项的主面板和回归分析主面板类似,自变量,因变量,权重。变量选择的方法和上边的加权回归也类似。这个方法也需要你事先给出一个大概的权重变量,然后系统会做一定的调整来使方程达到最佳效果。结果解释等也类似,就不赘述了。
除了加权回归以外,还有一个比较特别的线性回归是曲线参数估计。
如果你的线性模型拟合的不是那么理想,那么你的模型很可能就是曲线型的(尤其是你有两个变量的时候,线性模型有时候会非常糟糕)。需要打开分析——回归——曲线估计,选择你的因变量,自变量。此外下边还有十一种模型供你选择。选好以后,结果会给出每种模型的决定系数,F值,P值,你可以从这些数据中判断哪个方程最适合你的模型。
当然,这个不会给出你非常详细的数据。如果你还想要看更详细的数据,比如方程中每个参数的P值什么的,你最好还是用线性回归做一下。啊,当然,当然,你的数据肯定是没办法直接做线性回归的,不然也就不用做曲线估计了。你需要首先转换你的数据。举个例子:Y=X1^2*a1+X2^2*a2……,假设你的模型做出来符合这种形式。那你首先要在数据——计算新变量里边,计算出新变量x1的方,x2的方,然后在做这两个新变量和因变量的一般线性回归。当然,如果你想要在方程的自变量里在加一个x1和x2的积,你也可以这么加上去。
那么除了logistic回归以外,线性回归的内容基本就完毕了。下边我们继续讨论一个问题:如何消除自变量间的共线性?
上一节里边提到,如果VIF(方差因子膨胀率)合格,而DW不合格的话,我们可以使用广义差分法来改善DW,得到好的模型。那这一节,我们就来讨论一下VIF不合格的情况。我们已经知道,如果VIF不合格的话,说明自变量存在严重的共线性。在回归的范畴里边,通常有三种方法可以解决这个问题。他们分别是偏最小平方回归,岭回归,路径分析。
偏最小平方回归对于初学者来讲,是一个并不常用的回归方法。如果想用这个分析的话,需要额外下载相关模块。下好相关模块以后,打开分析——回归——部分最小回归,(如果没有下载相关模块的话,他会提示你下载),打开主面板,这是一个相当简单的面板,选好自变量,因变量之后,点确定就可以。结果会呈现四个表,也并不难判断。就不赘述了。
岭回归可以下载相关模块,也可以自己编程来实现。大部分人都会选择后一种方法。这个主要是因为代码很简洁,很容易编写。代码如下:
INCLUDE’d:\spss20.0\Ridge Regression.sps’.
Ridgereg enter=X1 X2 X3
/dep=y
诺,就这么三行。第一行单引号里边填写你的spss安装目录。比如我的按在d盘下面,所以我就填d:\spss20.0,如果你的按在c盘,那就填C盘呗。然后目录后边那个ridge regression,是最小二乘平方的宏的调用。然后第二行X1,X2,X3的位置填写你的自变量的名字。有几个就填几个。中间用空格隔开。第三行y的位置填你的因变量。运行的时候,打开文件——新建——语法,进入语法编辑器窗口,输入上边的代码,然后点运行——全部就可以了。结果会有一个系数表,这个表的第一列是K值,第二列是决定系数,第三列往后是你的自变量。其中k值会从0开始增大,同时决定系数也会慢慢变小,最终趋于稳定。(岭回归舍弃了一定的信息,从而改善了多重共线性)要从这张表里边选取合适的k值,使决定系数尽量大,同时尽量稳定。选好k值就可以参照系数写出方程了。此外在岭回归里边是不会输出常数的。这也是和一般回归方法的一个不同之处。
岭回归和偏最小平方回归比较而言,岭回归的优势在于容易操作。偏最小平方回归的优势在于可以用于例数很少的情况。如果例数很少,自变量又很多,甚至例数都少于自变量的数目,那么就一定要用偏最小平方回归了。额,通常在金融领域不会发生这种情况,但是在一些特殊的领域,医学啊什么的,则是有可能发生的。因此在某种程度上来讲,偏最小平方回归是给特殊需要的人使用的。
最后补充介绍一下路径分析。如果说前边两种方法都是从过程中实现的话,那么路径分析就是从专业角度来刻画方程了。举个例子,比如你想看看一朵鲜花的开放时间和阳光强度,空气湿度,空气温度,日照时间等等的关系,做出分析来一看,存在共线性。如果你是专业人员,那么很可能你就知道,由于空气温度受到阳光强度,和日照时间的影响,所以你的方程就存在了共线性。所以呢,你就能写出一个空气温度,阳光强度,日照时间之间的一个回归方程。然后你就能画出一个路径图,代表阳光强度的圈圈不仅直接影响了花朵开放时间,而且还影响了空气温度,从而间接影响了花朵开放时间,并且你还能写出彼此之间的影响系数。这就是路径分析的主要内容。
当然路径分析需要有专业知识的人来做。并且呢,通常需要经过许多尝试,才能正确的写出因变量和自变量之间的方程。而且,最重要的是,路径分析只能帮助我们搞清楚自变量之间到底存在怎么样的共线性,对于矫正方程没有什么作用。也就是说,方程的决定系数可能依然很糟糕。所以它更多的是用来做演示图或者什么的,对于改善多重共线性真的没什么用。
解决多重共线性的常见方法可以告一段落了。在非线性回归,分类回归之后我们介绍因子分析时将会旧话重提,再次讨论多重共线性的问题。CDA数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析(或路径分析)中,间接效应是衡量“自变量通过中介变量影响因变量”这一间接路径强度与方向的核心指标。不同于直 ...
2025-12-30数据透视表是数据分析中高效汇总、多维度分析数据的核心工具,能快速将杂乱数据转化为结构化的汇总报表。在实际分析场景中,我们 ...
2025-12-30在金融投资、商业运营、用户增长等数据密集型领域,量化策略凭借“数据驱动、逻辑可验证、执行标准化”的优势,成为企业提升决策 ...
2025-12-30CDA(Certified Data Analyst),是在数字经济大背景和人工智能时代趋势下,源自中国,走向世界,面向全行业的专业技能认证,旨 ...
2025-12-29在数据分析领域,周期性是时间序列数据的重要特征之一——它指数据在一定时间间隔内重复出现的规律,广泛存在于经济、金融、气象 ...
2025-12-29数据分析师的核心价值在于将海量数据转化为可落地的商业洞察,而高效的工具则是实现这一价值的关键载体。从数据采集、清洗整理, ...
2025-12-29在金融、零售、互联网等数据密集型行业,量化策略已成为企业提升决策效率、挖掘商业价值的核心工具。CDA(Certified Data Analys ...
2025-12-29CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23