京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
之前介绍过的相关分析有两个变量之间的线性相关关系,用的是简单相关系数r;还有复相关系数,用来表示一个变量与多个变量组成的整体之间的线性相关关系;很多人会问,如果想研究两组变量之间的相关关系,该使用什么方法呢?今天介绍的典型相关分析就是用于解决这个问题的分析方法。
在实际生活当中,关于两组变量之间的相关关系研究很多。例如,某个城市的经济发展水平(GDP、货物周转量、生产建设投资等)与居民生活水平(居民人均年收入、居民财产性收入、恩格尔系数等)间的相关关系;大学生毕业时的成绩(各种科目成绩)和入学时成绩的相关关系;公司内不同职位与员工工作满意度之间的相关关系;领导者的领导能力与情绪智力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。
上方左图是典型相关分析的结果展示图,这和右边的拔河图有异曲同工之处。两个环境中的每个参与者(变量)都是决定结果的因子。
典型相关关系
学习过前面介绍的因子分析的朋友应该很容易想到:是否能够从两组变量中提取公因子,然后用公因子之间的线性相关关系表示两组变量之间的相关关系呢?如果能想到这一点,说明已经拥有知识点拓展和触类旁通的数据分析能力。典型相关分析就是借用了主成分分析的分析逻辑,通过原始变量的线性组合,找到一个或几个综合变量来替代原始变量,从而将两组原始变量的相关关系研究转换成少数几对综合变量的相关关系研究。
典型相关分析首先对两组变量进行线性组合,找到一对综合变量,使这对综合变量具有最大相关性;然后再通过线性组合找出第二对综合变量,它们之间的相关关系会小于第一对综合变量;重复以上操作,直到两组变量的数据信息提取完成为止。提取的综合变量被称为典型变量或典则变量,它们之间的相关系数称为典型相关系数。与主成分分析相似,只需提取少数几对综合变量就可以概括两组变量的数据信息。典型相关分析与因子分析虽然都是通过原始变量的线性组合实现数据信息的浓缩,但是二者还是有不同的,不同之处在于变量线性组合的标准不一样。
因子分析的目的是简化分析局面。基于一组变量的相关关系,用少数几个公因子代替整个变量组的信息(数据的变异),实现变量降维,简化数据分析局面。因此,因子分析在做原始变量线性组合时,寻找公因子的标准是数据变异或波动最大的方向。而典型相关分析的目的是研究两组变量之间的相关关系,因此在做原始变量的线性组合时(提取公因子),考虑的重点在于寻找相关关系最强的典型变量对,简化两组变量之间错综复杂的相关关系网。
案例分析
我们国家是个人口大国,最近一次人口普查结果显示我们国家的人口数达到13.3亿人,农村人口数达到50.32%,因此提高农村居民的生活水平一直以来都是国家管理的重要内容。农村居民的收入和支出能够很好地反映农村居民的生活水平。现在有一份数据,收集了全国30个省市自治区直辖市的农村居民收入和支出情况,包括四项收入数据和8项支出数据:分别是劳动收入(X1)、经营收入(X2)、转移收入(X3)、财产收入(X4);食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备和服务支出(Y4)、医疗保健支出(Y5)、交通通讯支出(Y6)、文教娱乐支出(Y7)、其它支出(Y8)。SPSS数据如下图所示:
操作须知
SPSS没有为典型相关分析设置专门的操作菜单,只提供了一份名为Canonical correlation.sps的宏程序文件,这个文件存放在SPSS安装文件夹Samples文件夹内。只需在使用时调用,并输入参数语句即可调用输出结果。
分析步骤
点击菜单【文件】-【新建】-【数据】,跳出语法编辑器窗口,输入以下内容。点击确定,输出结果。
结果解释
1、相关系数矩阵;结果输出了三个相关系数矩阵,分别是第一组变量、第二组变量、第一组与第二组之间的相关系数矩阵。变量线性组合的基础就是相关系数矩阵。从前两个相关系数矩阵可以发现,两组变量内部,变量之间的相关系数都非常大,说明它们反映的收入和支出因素是类似的,所以不能很好的反映影响农民收入和支出水平的整体情况。
2、线性相关系数及显著性检验。本案例中提取了4对典型变量(每组变量提取4个公因子),这四对变量之间的相关系数依次降低,从0.980减少到0.561。显著性检验结果显示只有前面两对典型变量的相关系数有统计学意义。
3、典型变量系数;下面有四个表格,第一行的两个表是第一组变量抽取典型变量的结果,作图使用标准化的原始变量数据,右图直接使用原始变量数据;第二行的两个表格则是第二组变量抽取典型变量的结果。根据这些表格的数据可以写出典型变量的计算公式。
第二步的典型变量相关系数的检验结果显示,只有前面两对典型变量的相关系数有统计学意义,U1与V1的相关系数为0.980,U2与V2的相关系数为0.908,因此下面只写出这两对典型变量由标准化数据组成的计算公式:
可以发现,因为两组变量的系数很多都是负的,所以这两对典型变量的现实含义不好解释,原因就在于前面提到的两组变量内部的相关关系太强,无法表示农村居民收入的综合情况。本案例数据建立的典型相关模型的效果很差,应该重新选择能够充分反映农村居民收入水平的变量。
4、相关系数结果;下图四个表是相关系数表,第一列是本组变量与本组产生的典型变量的相关系数;第二列是本组变量与另一组变量产生的典型变量之间的相关系数。
根据相关系数数据,可以做出两对典型变量的相关系数结构图,由于作图的方式是一样的,因此用第一对典型变量为例进行说明。从结构图同样可以知道,四个收入变量与公因子U1的相关系数都是负数,而8个支出变量与公因子V1的相关系数也都为负数,同样说明了本案例的典型相关模型效果很差,不能用现实含义来解释。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17