京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【连载5】如何用spss做加权最小二乘回归及岭回归
上一节我们讲到一般多元线性回归的操作方法。本节要介绍的是多元线性回归的其他几种情况。包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上一节中没有讨论完毕的如何解决多重共线性这个问题。
讲加权最小二乘回归之前,我们首先还是举个例子。假设我们想考察全国三十一个省的某种疾病的发病率和每个省的面积,平均气温等的关系,那么我们知道,这三十一个省的人口肯定是不同的。而且差距还蛮大。并且最重要的,我们知道,发病率的高低很可能和人口的多少有关系(考虑传染性,人口密度什么的),那么这个时候我们直接用最小二乘回归就不是那么合适了,我们更好的选择是加权最小二乘回归法。也就是说,当样本和某一个权数存在某种关系的时候,我们就用加权最小二乘回归。
在上一节中我们提到过在线性回归主面板最下边有一个WLS权重框框。在加权最小二乘回归方法里边,我们就要用到这个框框了。我们在设置变量的时候除了自变量和因变量,还要设置一个权数变量(在上述的医学例子里,这个变量可以是每个省的人口。在其他一些金融案例里边,比方研究高价股票和低价股票的波动时,由于这两种股票在其他因素相同时的波动幅度不同,因此需要设一个权数,这个权数可能就是自己设定的了。)然后我们把这个权数变量选入到WLS权重框里边。其他过程和一般线性回归一致。
解释结果的时候也和一般线性回归类似,只是有一个小小的地方需要大家注意一下。我们知道,模型汇总表里边的决定系数是一个比较重要的参考数据。它会告诉你你的方程能解释你的模型的百分之多少,从而从侧面考察了你的方程的合理性。但是不幸的是,这个决定系数在加权线性回归里边出现了比较严重的偏差。这个和决定系数的计算方法有关系。因此假如我们用同样的数据做一遍加权的回归,和一遍不加权的回归,往往会发现不加权的方程决定系数大于加权的。但是这个并不能代表不加权的方程就一定比加权后的准确。实际上加权以后的模型和不加权的模型到底孰优孰劣,好的那个方程又能好多少,这些问题spss都不能给出直接的数据。因此在使用加权最小二乘回归的时候应当格外谨慎。
此外,由于有时候权重并不特别明确,(比如上边那个金融的案例),这时候可以使用分析——回归——权重估计这个选项。这个选项的主面板和回归分析主面板类似,自变量,因变量,权重。变量选择的方法和上边的加权回归也类似。这个方法也需要你事先给出一个大概的权重变量,然后系统会做一定的调整来使方程达到最佳效果。结果解释等也类似,就不赘述了。
除了加权回归以外,还有一个比较特别的线性回归是曲线参数估计。
如果你的线性模型拟合的不是那么理想,那么你的模型很可能就是曲线型的(尤其是你有两个变量的时候,线性模型有时候会非常糟糕)。需要打开分析——回归——曲线估计,选择你的因变量,自变量。此外下边还有十一种模型供你选择。选好以后,结果会给出每种模型的决定系数,F值,P值,你可以从这些数据中判断哪个方程最适合你的模型。
当然,这个不会给出你非常详细的数据。如果你还想要看更详细的数据,比如方程中每个参数的P值什么的,你最好还是用线性回归做一下。啊,当然,当然,你的数据肯定是没办法直接做线性回归的,不然也就不用做曲线估计了。你需要首先转换你的数据。举个例子:Y=X1^2*a1+X2^2*a2……,假设你的模型做出来符合这种形式。那你首先要在数据——计算新变量里边,计算出新变量x1的方,x2的方,然后在做这两个新变量和因变量的一般线性回归。当然,如果你想要在方程的自变量里在加一个x1和x2的积,你也可以这么加上去。
那么除了logistic回归以外,线性回归的内容基本就完毕了。下边我们继续讨论一个问题:如何消除自变量间的共线性?
上一节里边提到,如果VIF(方差因子膨胀率)合格,而DW不合格的话,我们可以使用广义差分法来改善DW,得到好的模型。那这一节,我们就来讨论一下VIF不合格的情况。我们已经知道,如果VIF不合格的话,说明自变量存在严重的共线性。在回归的范畴里边,通常有三种方法可以解决这个问题。他们分别是偏最小平方回归,岭回归,路径分析。
偏最小平方回归对于初学者来讲,是一个并不常用的回归方法。如果想用这个分析的话,需要额外下载相关模块。下好相关模块以后,打开分析——回归——部分最小回归,(如果没有下载相关模块的话,他会提示你下载),打开主面板,这是一个相当简单的面板,选好自变量,因变量之后,点确定就可以。结果会呈现四个表,也并不难判断。就不赘述了。
岭回归可以下载相关模块,也可以自己编程来实现。大部分人都会选择后一种方法。这个主要是因为代码很简洁,很容易编写。代码如下:
INCLUDE’d:\spss20.0\Ridge Regression.sps’.
Ridgereg enter=X1 X2 X3
/dep=y
诺,就这么三行。第一行单引号里边填写你的spss安装目录。比如我的按在d盘下面,所以我就填d:\spss20.0,如果你的按在c盘,那就填C盘呗。然后目录后边那个ridge regression,是最小二乘平方的宏的调用。然后第二行X1,X2,X3的位置填写你的自变量的名字。有几个就填几个。中间用空格隔开。第三行y的位置填你的因变量。运行的时候,打开文件——新建——语法,进入语法编辑器窗口,输入上边的代码,然后点运行——全部就可以了。结果会有一个系数表,这个表的第一列是K值,第二列是决定系数,第三列往后是你的自变量。其中k值会从0开始增大,同时决定系数也会慢慢变小,最终趋于稳定。(岭回归舍弃了一定的信息,从而改善了多重共线性)要从这张表里边选取合适的k值,使决定系数尽量大,同时尽量稳定。选好k值就可以参照系数写出方程了。此外在岭回归里边是不会输出常数的。这也是和一般回归方法的一个不同之处。
岭回归和偏最小平方回归比较而言,岭回归的优势在于容易操作。偏最小平方回归的优势在于可以用于例数很少的情况。如果例数很少,自变量又很多,甚至例数都少于自变量的数目,那么就一定要用偏最小平方回归了。额,通常在金融领域不会发生这种情况,但是在一些特殊的领域,医学啊什么的,则是有可能发生的。因此在某种程度上来讲,偏最小平方回归是给特殊需要的人使用的。
最后补充介绍一下路径分析。如果说前边两种方法都是从过程中实现的话,那么路径分析就是从专业角度来刻画方程了。举个例子,比如你想看看一朵鲜花的开放时间和阳光强度,空气湿度,空气温度,日照时间等等的关系,做出分析来一看,存在共线性。如果你是专业人员,那么很可能你就知道,由于空气温度受到阳光强度,和日照时间的影响,所以你的方程就存在了共线性。所以呢,你就能写出一个空气温度,阳光强度,日照时间之间的一个回归方程。然后你就能画出一个路径图,代表阳光强度的圈圈不仅直接影响了花朵开放时间,而且还影响了空气温度,从而间接影响了花朵开放时间,并且你还能写出彼此之间的影响系数。这就是路径分析的主要内容。
当然路径分析需要有专业知识的人来做。并且呢,通常需要经过许多尝试,才能正确的写出因变量和自变量之间的方程。而且,最重要的是,路径分析只能帮助我们搞清楚自变量之间到底存在怎么样的共线性,对于矫正方程没有什么作用。也就是说,方程的决定系数可能依然很糟糕。所以它更多的是用来做演示图或者什么的,对于改善多重共线性真的没什么用。
解决多重共线性的常见方法可以告一段落了。在非线性回归,分类回归之后我们介绍因子分析时将会旧话重提,再次讨论多重共线性的问题。CDA数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09在日常办公数据分析中,Excel数据透视表是最常用的高效工具之一——它能快速对海量数据进行分类汇总、分组统计,将杂乱无章的数 ...
2026-02-09表结构数据作为结构化数据的核心载体,其“获取-加工-使用”全流程,是CDA(Certified Data Analyst)数据分析师开展专业工作的 ...
2026-02-09在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06在机器学习建模过程中,特征选择是决定模型性能的关键环节——面对动辄几十、上百个特征的数据(如用户画像的几十项维度、企业经 ...
2026-02-06在CDA(Certified Data Analyst)数据分析师的日常实操中,表格结构数据是贯穿全流程的核心载体,而对表格数据类型的精准识别、 ...
2026-02-06在日常办公数据分析中,我们经常会面对杂乱无章的批量数据——比如员工月度绩效、产品销售数据、客户消费金额、月度运营指标等。 ...
2026-02-05在分类模型(如风控反欺诈、医疗疾病诊断、客户流失预警)的实操落地中,ROC曲线是评估模型区分能力的核心工具,而阈值则是连接 ...
2026-02-05对CDA(Certified Data Analyst)数据分析师而言,数据分析的价值不仅在于挖掘数据背后的规律与洞察,更在于通过专业的报告呈现 ...
2026-02-05在数据分析实战中,我们经常会遇到“多指标冗余”的问题——比如分析企业经营状况时,需同时关注营收、利润、负债率、周转率等十 ...
2026-02-04在数据分析场景中,基准比是衡量指标表现、评估业务成效、对比个体/群体差异的核心工具,广泛应用于绩效评估、业务监控、竞品对 ...
2026-02-04业务数据分析是企业日常运营的核心支撑,其核心价值在于将零散的业务数据转化为可落地的业务洞察,破解运营痛点、优化业务流程、 ...
2026-02-04在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02