登录
首页精彩阅读【从零开始学统计】12.主成分与因子的相伴相随
【从零开始学统计】12.主成分与因子的相伴相随
2014-07-07
收藏
       六月这个特殊的月,我们都会关注一些“时令”信息,比如高考,比如世界杯,比如就业……一说到这些,媒体上充斥的就是非常时髦的排名,什么大学排行榜,MBA商学院排名,专业排行榜,专业就业排行榜,最佳球员榜,还有那些胡润富人排行榜,财富500强,慈善排名,城市竞争力排行等等!最近刚刚完成广播电视节目综合评估体系客体评估项目,其中也涉及到电视节目的综合评估问题,特别是综合排名问题。大部分情况下综合评价问题都会涉及到排名,多指标排名问题。
    一说到多指标排名,楼主不禁想到前不久刚做的一个项目,也使用了综合评分排名。这当中的关键无疑是怎样统一量纲,给予权数。权数的确定方法很多,但发现近来用主成分和因子分析法赋权的文章越来越多。这两个方法多元统计必讲,但……我相信很多人除了知道因子旋转一下,其余基本是因子主成分傻傻分不清的……(包括楼主自己)
所以今天特地去整理了一些内容分享给大家:
先从概念讲起吧——



一、主成分分析概述:
  • 是否可以用较少的几个相互独立的指标代替原来的多个指标,使其既能减少指标个数,又能综合反映其原指标的信息?主成分分析结解决这个问题。
  • 有些变量不能或不易直接观察,他们只能通过其他多个可观察指标来间接反映
  • 主成分分析:基本思想降维,将多个相互关联的数值指标转化为少数几个互不相关的综合指标,综合后的指标就是原来多指标的主要成分。
  • 举例:两个指标x1(年龄)和x2(身高),x1和x2呈线性正相关,将该直线作为新坐标系的横轴z1,取一条与z1垂直的纵轴z2。在新坐标系中,n个点不再呈线性相关,即z1和z2两个新变量互相独立,且变异主要集中在z1方向,说明z1的方差较大,z2的方差较小。如果此时要研究n个儿童年龄与身高,只需要考虑z1这个变量即可。1-110RQ40015W1.gif
  • 我们称z1为第一主成分,z2为第二主成分。
  • 主成分个数的选取:
  • 前k个主成分的累积贡献率达到某一特定值(一般采用70%或80%)
  • 特征根>=1

结果分析:

  • 各指标间的相关矩阵
  • 公因子方差:初始值为1,提取里有0说明是特殊因素
  • 解释的总方差:选取主成分个数
  • 成分矩阵:根据0.5原则,大于0.5的作为主成分包含的内容
  • 成分得分系数矩阵:将所有的主成分标示为各个变量的线性组合。

二、因子分析概述:
  • 有些变量不能或不易直接观察,他们只能通过其他多个可观察指标来间接反映。例如:医院医疗工作质量不易直接观察,但可以通过门诊人次、出院人数、诊断符合率、治愈率、病死率等一些可观测指标来反映医院医疗工作质量这个潜在变量。
  • 通常,多变量之间具有相关性,其产生的原因可能是潜在的因素对观察的变量起支配作用,如何找出这些潜在的因素?这些潜在因素是如何对原始指标起支配作用?因子分析解决这个问题。
  • 因子分析:一种寻找潜在支配因子的模型分析方法,作用是分析可观察到的原始多个变量,找出数目相对较少的,对原始变量有潜在支配作用的因子。找出共性因子变量,估计因子模型,计算共性因子变量的取值和对共性因子变量做出合理的解释。
  • 因子分析分为两类:探索性因子分析,确定性因子分析。
  • 探索性因子分析(简称因子分析):应用在数据分析初期阶段,目的是探究原可测变量的特征、性质及其内部的关联性,揭示哪些主要的潜在因子可能影响这些可测变量。分析的结果一般不需要进行统计检验,可建立理论变量。
  • 确定性因子分析:在探索性因子分析的基础上进行的,进一步明确每个潜在因子对可测变量的影响程度和关联程度,该分析不要求找出潜在因子之间相互独立,目的是明确潜在因子之间关联性。分析结果需要统计校验。

结果分析:

  • 主成分信息,取特征值大于1的,如果大于1的累计贡献率过低,也可以选取特征值小于1的。这里可看出,约82.488%的总方差可以由2个潜在因子解释。
  • 累计贡献率达到85%

解释的总方差

成份

初始特征

提取平方和载入

旋转平方和载入

合计

方差的 %

累积 %

合计

方差的 %

累积 %

合计

方差的 %

累积 %

1

2.731

45.520

45.520

2.731

45.520

45.520

2.688

44.802

44.802

2

2.218

36.969

82.488

2.218

36.969

82.488

2.261

37.687

82.488

3

.442

7.360

89.848

4

.341

5.688

95.536

5

.183

3.044

98.580

6

.085

1.420

100.000

提取方法:主成份分析。

  • 公因子方差比
  • 旋转后的因子矩阵:比旋转前的因子起到了明显的分离作用,使各因子具有较明确的专业意义。

三、主成分分析和因子分析异同


1.原理不同


  • 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
  • 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)

2.线性表示方向不同


  • 因子分析是把变量表示成各公因子的线性组合
  • 主成分分析中则是把主成分表示成各变量的线性组合。


3.假设条件
不同


  • 主成分分析:不需要有假设(assumptions)
  • 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。 

4.求解方法不同


  • 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)

注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况);


  • 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

5.主成分和因子的变化不同


  • 主成分分析:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的
  • 因子分析:因子不是固定的,可以旋转得到不同的因子。

6.因子数量与主成分的数量


  • 主成分分析:主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。
  • 因子分析:因子个数需要分析者指定(SPSS和sas根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;

7.解释重点不同


  • 主成分分析:重点在于解释个变量的总方差
  • 因子分析:则把重点放在解释各变量之间的协方差。 

8.算法上的不同


  • 主成分分析:协方差矩阵的对角元素是变量的方差
  • 因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)

9.优点不同:

因子分析:对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据
主成分分析:
  • 如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析;
  • 通过计算综合主成分函数得分,对客观经济现象进行科学评价;
  • 它在应用上侧重于信息贡献影响力综合评价。
  • 应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维

10.应用场景不同
  • 主成分分析:可以用于系统运营状态做出评估,一般是将多个指标综合成一个变量,即将多维问题降维至一维,这样才能方便排序评估;此外还可以应用于经济效益、经济发展水平、经济发展竞争力、生活水平、生活质量的评价研究上;主成分还可以用于和回归分析相结合,进行主成分回归分析,甚至可以利用主成分分析进行挑选变量,选择少数变量再进行进一步的研究。一般情况下主成分用于探索性分析,很少单独使用,用主成分来分析数据,可以让我们对数据有一个大致的了解。
几个常用组合:主成分分析+判别分析,适用于变量多而记录数不多的情况;
           主成分分析+多元回归分析,主成分分析可以帮助判断是否存在共线性,并用于处理共线性问题
           主成分分析+聚类分析,不过这种组合因子分析可以更好的发挥优势。
  • 因子分析:首先,因子分析+多元回归分析,可以利用因子分析解决共线性问题;其次,可以利用因子分析,寻找变量之间的潜在结构;再次,因子分析+聚类分析,可以通过因子分析寻找聚类变量,从而简化聚类变量;此外,因子分析还可以用于内在结构证实


★提问时间:

Q1:为什么要降维
A:在实际分析问题时,研究者往往选择很多的指标。这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。直白说就是用多个指标分析一个问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。那么计算总分的时候,如果不把几个化学成绩降维成一个化学成绩,就会由于信息的重叠导致结果失真。(当然还有另外一种情况,学校的科目开设的非常多,比如财务管理,会计学,审计学,概率论,统计学,高数……也可通过降维简单划分为财会类,数理类)


Q2:线性相关就一定是信息重叠吗?
A:这个不一定吧。我们举个例子。比如:要衡量经济发展的影响因素,理论上讲,刺激经济发展的三驾马车是投资、消费和出口,那么我们用于衡量经济发展程度是不是就把这三个指标主成分一下?肯定不是。正确的做法应该是这三个相加,纵然他们之间可能存在相关,甚至是高度相关,也不能使用主成分。因为这种相关不是信息的重叠。所以这里记住一点,线性相关并不意味着信息重叠。


Q3:降维一定要用主成分吗?
A:这个答案更容易回答,相信很多人都会说否。但实际中却一直这么操作。因为觉得其他降维方法不会呀,而且主成分貌似很高深,用它倍有面子。其实,实际中使用主成分是因为从主观上没有办法删减变量,如果主观上就能区别出哪些是核心原因,哪些不是,直接将不是的删了就行了,没必要搞个神秘的主成分来把问题复杂化。要知道主成分使用时,第一步是标准化,这样一来很多指标的意义就模糊了。这种删减指标的降维方法估计人人都会,可实际中统计专业的达人们却不屑使用。总觉得用这个方法太没面子了。所以这里再强调点,使用方法是为了有效解决问题。有效才是解决问题的关键。


Q4:使用主成分时,相关变量一起上吗?
A:答案依然为否。在使用主成分前,应该先对指标大致分类,将指标中同一类型或者衡量同一个方面的指标归为一类,这样在分类的基础上进行研究。这里有点验证性因子分析的意思。别跟我说这样太主观,其实主观比客观有效的多。如果只有客观,软件就可以解决问题,要人干吗?再说,在人类社会中基本没有绝对客观的东西,所有的客观分析都建立在主观的基础上。高考客观吗?卷子是主观出的。GDP客观吗?指标是主观定的……


Q5:主成分加权很科学吗?
A:主成分加权是一种广泛采用的客观赋权方法。赋权的依据是各个主成分的方差贡献率。但是方差大权重就应该大吗?重要性的判定应该依据指标的实际意义或者作用,而不应该简单地依靠方差大小来判定吧。所以在没有弄清楚主成分意义的情况下而盲目加权是不是有点太武断了!

数据分析咨询请扫描二维码

客服在线
立即咨询