处理多重共线性问题-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读处理多重共线性问题

处理多重共线性问题

2016-05-07

处理多重共线性问题

一、多重共线性的表现

线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。看似相互独立的指标本质上是相同的，是可以相互代替的，但是完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。

二、多重共线性的后果
1.理论后果

多重共线性是因为变量之间的相关程度比较高。

按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数缺测性”问题，就是说多重共线性其实是由样本容量太小所造成，当样本容量越小，多重共线性越严重。

多重共线性的理论主要后果：

（1）完全共线性下参数估计量不存在；

（2）近似共线性下OLS估计量非有效；

（3）模型的预测功能失效；

（4）参数估计量经济含义不合理

2.现实后果
（1）各个解释变量对指标最后结论影响很难精确鉴别；
（2）置信区间比原本宽，使得接受假设的概率更大；
（3）统计量不显著；
（4）拟合优度的平方会很大；
（5）OLS估计量及其标准误对数据微小的变化也会很敏感。

三、多重共线性产生的原因

1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共性。例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长

3. 滞后变量。滞后变量的引入也会产生多重共线行，例如本期的消费水平除受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。

四、多重共线性的识别
1.方差扩大因子法( VIF)

一般认为如果最大的VIF超过10，常常表示存在多重共线性。
2.容差容忍定法

如果容差（tolerance）<=0.1，常常表示存在多重共线性。
3. 条件索引

条件索引(condition index)>10，可以说明存在比较严重的共线性。

五、多重共线性的处理方法

处理方法有多重增加样本容量、剔除因子法、PLS(偏最小二乘法)、岭回归法、主成分法。

今天着重介绍——主成分法。

当自变量间有较强的线性相关性时，利用个p个变量的主成分，所具有的性质，如果他们是互不相关的，可由前m个主成z1、z2、zm来建立回归模型。

由原始变量的观测数据计算前个主成分的得分值，将其作为主成分的观测值，建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构，且消除了变量间相关性带来的影响

六、实际的应用

我们以下这个模型分析主营业务利润的影响

Opinci,t=a0+a1*Intani,t+a2*Ppei,t+a3*Opinci,t-1+a4*Levi,t+a5*Asseti,t +ξi,t

1、回归分析

2、结果

对自变量主成分法从多重共线性的识别方法来看，此模型中存在共线性问题，Ppei,t是影响因子。

3、对自变量主成分法

由于spss没有独立的主成分分析模块，需要在因子分析里完成，因此需要特别注意。

在数据窗口下选择“分析”—“降维”—“因子分析。

3.1 结果

从KMO 和 Bartlett 的检验得知p<0.001，KMO检验通过，适合做主成分或因子分析，从解释的总方差表里初始特征值两个主成分（初始因子）贡献率已达86.89%，提取前两个主成分用于分析。

由成分矩阵和表解释的总方差可计算前两个特征向量，用成分矩阵前两列分别除以前两个特征值的平方根得前两个主成分表达式：

F1=0.4726Opinci,t-1+0.4854 Instani,t +0.5371Ppei,t+ 0.0534Levi,t+ 0.4995Asseti,t（式1）

F2=-0.1219Opinci,t-1-0.0510Instani,t -0.0497 Ppei,t+ 0.9837Levi,t+0.1131 Asseti,t（式2）

其中Opinci,t-1、 Instani,t 、Ppei,t、 Levi,t、 Asseti,t表示为标准化变量（这是因为在进行主成分分析时是以标准化变量进行分析的，是从相关阵出发分析的）

由于主成分互不相关，可以用提取的主成分代替自变量进行回归分析，因此需要计算主成分得分来代替自变量Opinci,t-1、 Instani,t 、Ppei,t、 Levi,t、 Asseti,t。

主成分的计算：依据式1和2中两个主成分的表达式，对各自变量标准化后带入就可以计算出每个样品的主成分得分。

但是在spss中，由因子分析提取时是用主成分法提取的，根据初始因子与主成分的关系，未旋转的初始因子等于主成分除以特征根的平方根，因此主成分得分等于因子得分乘以特征根的平方根，可以由因子得分计算主成分得分。

前面在因子分析选项中保存了因子得分（因子得分保存变量），因此计算两个主成分得分：点击“转换”—“计算变量”。

在弹出的窗口分别定义主成分

F1=第一因子得分*第一特征根的平方根

F2=第二因子得分*第二特征根的平方根

（3）主成分回归过程

要做主成分回归，需要用标准化的因变量（因为自变量经过标准化处理做主成分分析，因变量需要对应做标准化）与主成分做回归，对因变量Opinci,t做标准化处理。

点击“分析”-“描述统计”-“描述”，在弹出窗口中将Opinci,t调入变量，并选中“将标准化得分另存为变量”后确定完成Opinci,t的标准化。

QQ截图20160503160237.png

点击“分析”-“回归”-“线性”在弹出窗口中将Z主营业务利润（y）调入因变量，F1和F2调入自变量，其他选项如前，然后点击“确定”运行主成分回归。

QQ截图20160503160243.png

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

处理多重共线性问题

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载