登录
首页精彩阅读SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
2017-07-11
收藏

SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路

之前介绍过的相关分析有两个变量之间的线性相关关系,用的是简单相关系数r;还有复相关系数,用来表示一个变量与多个变量组成的整体之间的线性相关关系;很多人会问,如果想研究两组变量之间的相关关系,该使用什么方法呢?今天介绍的典型相关分析就是用于解决这个问题的分析方法。

在实际生活当中,关于两组变量之间的相关关系研究很多。例如,某个城市的经济发展水平(GDP、货物周转量、生产建设投资等)与居民生活水平(居民人均年收入、居民财产性收入、恩格尔系数等)间的相关关系;大学生毕业时的成绩(各种科目成绩)和入学时成绩的相关关系;公司内不同职位与员工工作满意度之间的相关关系;领导者的领导能力与情绪智力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。

上方左图是典型相关分析的结果展示图,这和右边的拔河图有异曲同工之处。两个环境中的每个参与者(变量)都是决定结果的因子。

典型相关关系

学习过前面介绍的因子分析的朋友应该很容易想到:是否能够从两组变量中提取公因子,然后用公因子之间的线性相关关系表示两组变量之间的相关关系呢?如果能想到这一点,说明已经拥有知识点拓展和触类旁通的数据分析能力。典型相关分析就是借用了主成分分析的分析逻辑,通过原始变量的线性组合,找到一个或几个综合变量来替代原始变量,从而将两组原始变量的相关关系研究转换成少数几对综合变量的相关关系研究。

典型相关分析首先对两组变量进行线性组合,找到一对综合变量,使这对综合变量具有最大相关性;然后再通过线性组合找出第二对综合变量,它们之间的相关关系会小于第一对综合变量;重复以上操作,直到两组变量的数据信息提取完成为止。提取的综合变量被称为典型变量或典则变量,它们之间的相关系数称为典型相关系数。与主成分分析相似,只需提取少数几对综合变量就可以概括两组变量的数据信息。典型相关分析与因子分析虽然都是通过原始变量的线性组合实现数据信息的浓缩,但是二者还是有不同的,不同之处在于变量线性组合的标准不一样。

因子分析的目的是简化分析局面。基于一组变量的相关关系,用少数几个公因子代替整个变量组的信息(数据的变异),实现变量降维,简化数据分析局面。因此,因子分析在做原始变量线性组合时,寻找公因子的标准是数据变异或波动最大的方向。而典型相关分析的目的是研究两组变量之间的相关关系,因此在做原始变量的线性组合时(提取公因子),考虑的重点在于寻找相关关系最强的典型变量对,简化两组变量之间错综复杂的相关关系网。

案例分析

我们国家是个人口大国,最近一次人口普查结果显示我们国家的人口数达到13.3亿人,农村人口数达到50.32%,因此提高农村居民的生活水平一直以来都是国家管理的重要内容。农村居民的收入和支出能够很好地反映农村居民的生活水平。现在有一份数据,收集了全国30个省市自治区直辖市的农村居民收入和支出情况,包括四项收入数据和8项支出数据:分别是劳动收入(X1)、经营收入(X2)、转移收入(X3)、财产收入(X4);食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备和服务支出(Y4)、医疗保健支出(Y5)、交通通讯支出(Y6)、文教娱乐支出(Y7)、其它支出(Y8)。SPSS数据如下图所示:

操作须知

SPSS没有为典型相关分析设置专门的操作菜单,只提供了一份名为Canonical correlation.sps的宏程序文件,这个文件存放在SPSS安装文件夹\Samples文件夹内。只需在使用时调用,并输入参数语句即可调用输出结果。

分析步骤

点击菜单【文件】-【新建】-【数据】,跳出语法编辑器窗口,输入以下内容。点击确定,输出结果。

结果解释

1、相关系数矩阵;结果输出了三个相关系数矩阵,分别是第一组变量、第二组变量、第一组与第二组之间的相关系数矩阵。变量线性组合的基础就是相关系数矩阵。从前两个相关系数矩阵可以发现,两组变量内部,变量之间的相关系数都非常大,说明它们反映的收入和支出因素是类似的,所以不能很好的反映影响农民收入和支出水平的整体情况。

2、线性相关系数及显著性检验。本案例中提取了4对典型变量(每组变量提取4个公因子),这四对变量之间的相关系数依次降低,从0.980减少到0.561。显著性检验结果显示只有前面两对典型变量的相关系数有统计学意义。

3、典型变量系数;下面有四个表格,第一行的两个表是第一组变量抽取典型变量的结果,作图使用标准化的原始变量数据,右图直接使用原始变量数据;第二行的两个表格则是第二组变量抽取典型变量的结果。根据这些表格的数据可以写出典型变量的计算公式。

第二步的典型变量相关系数的检验结果显示,只有前面两对典型变量的相关系数有统计学意义,U1与V1的相关系数为0.980,U2与V2的相关系数为0.908,因此下面只写出这两对典型变量由标准化数据组成的计算公式:

可以发现,因为两组变量的系数很多都是负的,所以这两对典型变量的现实含义不好解释,原因就在于前面提到的两组变量内部的相关关系太强,无法表示农村居民收入的综合情况。本案例数据建立的典型相关模型的效果很差,应该重新选择能够充分反映农村居民收入水平的变量。

4、相关系数结果;下图四个表是相关系数表,第一列是本组变量与本组产生的典型变量的相关系数;第二列是本组变量与另一组变量产生的典型变量之间的相关系数。

根据相关系数数据,可以做出两对典型变量的相关系数结构图,由于作图的方式是一样的,因此用第一对典型变量为例进行说明。从结构图同样可以知道,四个收入变量与公因子U1的相关系数都是负数,而8个支出变量与公因子V1的相关系数也都为负数,同样说明了本案例的典型相关模型效果很差,不能用现实含义来解释。


数据分析咨询请扫描二维码

客服在线
立即咨询