【从零开始学统计】10.共线性与异方差-CDA数据分析师官网

热线电话：13121318867

【从零开始学统计】10.共线性与异方差

2014-07-04

传统的多元线性回归模型中，总是存在一个基本假设：解释变量为非随机变量且彼此间互不相关（实际上一般只要求不存在完全共线性），随机误差项相互独立且服从零均值同方差的特性。那么这次，我们就来看看时常困扰我们的共线性和异方差的问题。
首先我们来了解一下什么是共线性：

所谓多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说，由于经济数据的限制使得模型设计不当，导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。它产生的主要原因有三个方面：
（1）经济变量相关的共同趋势
（2）滞后变量的引入
（3）样本资料的限制
如果解释变量存在共线性，那么模型的参数估计情况就不太乐观了，比如完全共线性下参数估计量不存在；近似共线性下OLS估计量非有效，多重共线性使参数估计值的方差增大；参数估计量经济含义不合理；变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外；模型的预测功能失效（变大的方差容易使区间预测的“区间”变大，使预测失去意义）
需要注意：即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。但是OLS法在统计推断上无法给出真正有用的信息。
Q：我们该如何判断变量存在共线性？
1、系数判定法
（1）如果决定系数很大（一般大于0.8），但模型中全部或部分参数却不显著，那么，此时解释变量之间往往存在多重共线性。
（2）从经济理论知某些解释变量对因变量有重要影响，或经检验变量之间线性关系显著，但其参数的检验均不显著，一般就应怀疑是多重共线性所致。
（3）如果对模型增添一个新的解释变量之后，发现模型中原有参数估计值的方差明显增大，则表明在解释变量之间（包括新添解释变量在内）可能存在多重共线性。
2、用解释变量之间所构成的回归方程的决定系数进行判别
3、逐步回归判别法：被解释变量逐个引入解释变量，构成回归模型，进行参数估计，根据决定系数的变化决定新引入的变量是否能够加入模型之中。首先将对所有的解释变量分别作回归，得到所有的模型，取决定系数最大的模型中的解释变量加入模型，作为第一个引入模型的变量；其次，再对剩余的解释变量分别加入模型，进行二元回归，再次，取决定系数最大的解释变量加入模型；依次做下去，直到模型的决定系数不再改善为止。
4、方差膨胀因子VIF判别法：对于多元线性回归模型，一般当VIF＞10时(此时＞0.9)，认为模型存在较严重的多重共线性。

Q：遇到多重共线性，我们该怎么办？
（1）删除不重要的自变量：自变量之间存在共线性，说明自变量所提供的信息是重叠的，可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当，会产生模型设定误差，造成参数估计严重有偏的后果。
（2）追加样本信息：多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计，因此追加样本信息是解决该问题的一条有效途径。但是，由于资料收集及调查的困难，要追加样本信息在实践中有时并不容易。
（3）利用非样本先验信息：非样本先验信息主要来自经济理论分析和经验认识。充分利用这些先验的信息，往往有助于解决多重共线性问题。
（4）改变解释变量的形式：改变解释变量的形式是解决多重共线性的一种简易方法，例如对于横截面数据采用相对数变量，对于时间序列数据采用增量型变量。
（5）逐步回归法：是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量，引入的条件是该自变量经F检验是显著的，每引入一个自变量后，对已选入的变量进行逐个检验，如果原来引入的变量由于后面变量的引入而变得不再显著，那么就将其剔除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F 检验，以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行，直到既没有不显著的自变量选入回归方程，也没有显著自变量从回归方程中剔除为止。
（6）可以做主成分回归：利用主成分提取的原理（比如变量间方差最大等）提取新的变量，新变量间一般不存在线性相关（但也会存在如何给新变量命名的问题），这是比较常用的一种降维方式。

接下来就是同样让人为之烦恼的异方差问题了
通常说的异方差性就是(Var(εi ) ≠Var (εj ) , 当i≠j时) 。经济现象是错综复杂的,在建立经济问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差,即异方差性。当我们所研究的问题存在异方差性时,线性回归模型的基本假定就被违反了。引起随机误差项产生异方差的原因很多,其中样本数据为截面数据时较容易出现异方差性。而当一个回归问题存在异方差性时,如果仍用OLS估计未知参数,就会造成估计值不是最优、参数的显著性检验失效、回归方程的应用效果极不理想等严重后果。
让我们来看看同方差和异方差残差图上的区别：

异方差.jpg

那我们该如何更加精确的检验是否存在异方差呢？
1、戈德菲尔德-夸特(Goldfeld-Quandt)检验：G-Q检验以F检验为基础，适用于样本容量较大、异方差递增或递减的情况。G-Q检验的思想：先按某一解释变量(通常是可能引起异方差的解释变量)对样本排序，再将排序后的样本一分为二，对子样①和子样②分别作回归，然后利用两个子样的残差平方和之比构造统计量进行异方差检验。
步骤：（1）将解释变量排序，从中间去掉c=n/4个观测值
      （2）分成两个部分，利用样本1和样本2分别建立回归模型
      （3）根据回归求出各自残差平方和RSS1和RSS2
      （4）在同方差假定下，构造F统计量：F=(RSS2/V2)/(RSS1/V1)，与F（V2，V1）进行比较,若F值大于等于比较值则拒绝同方差假设，否则则不拒绝
注意：
（1）该检验的功效取决于c 值，c 值越大，则大小方差的差异越大，检验功效越好
（2）两个回归所用的观测值的个数是否相等并不重要，因为可以通过公式改变自由度和统计量的计算公式来调整
（3）当模型中包含多个解释变量时，应对每个可能引起方差的解释变量都进行检验
2、怀特（White）检验：怀特检验不需要排序，且适合任何形式的异方差。
步骤：
（1）对原模型进行OLS 回归，得到残差ei
（2）以ei2为被解释变量，以各种解释变量、个解释变量的平方项、解释变量之间两两交叉项为解释变量建立辅助回归方程，并估计
（3）根据辅助回归方程估计结果构造并计算统计量nR2 ,它服从卡方分布（自由度为辅助回归式中解释变量个数）
（4）根据临界值判断，若大于临界值，拒绝同方差假定；小于临界值，则不拒绝同方差假定
注意：
（1）辅助回归中可引入解释变量的更高次幂
（2）在多元回归中，由于解释变量个数太多，可去掉辅助回归式中解释变量间的交叉项
Q：检验出异方差之后我们改如何处理？
1、WLS（加权最小二乘估计）是一种特殊的广义最小二乘估计，其思想就是对于误差越大的关系额赋予更加大的权重。可以得到关于GLS的稳健的统计量。GLS系数的解释要回到原先的方程中去。如果分析的问题不是个体的数据，而是一个组或者是一个地区的数据平均值，那么就会出现系统性的异方差性。
2、FGLS（可行的最小二乘估计），当我们不知道误差函数的时候，可以采用相应的模型，然后使用数据来估计相应的参数，得到相应的函数形式，最后替代GLS估计中的函数，后面的操作就不变。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；