
SPSS分析技术:Pearson相关、Spearman相关及Kendall相关
通过文章(点击蓝字即可回顾阅读):数据分析技术:数据关联性分析综述,我们知道数据的关联性分析可以分为两个大类:相关性分析和回归分析。根据数据种类的不同(定距、定序和定类),它们又有不同的分析方法。可以通过下面的思维导图帮助记忆:
常用的相关性分析包括:皮尔逊(Pearson)相关、斯皮尔曼(Spearman)相关、肯德尔(Kendall)相关和偏相关。下面介绍前三种相关分析技术,并用实际案例说明如何用SPSS使用这三种相关性分析技术。三种相关性检验技术,Pearson相关性的精确度最高,但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广,但精确度较差。
Pearson相关
皮尔逊相关是利用相关系数来判定数据之间的线性相关性,相关系数r的公式如下:
数据要求
正态分布的定距变量;
两个数据序列的数据要一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在皮尔逊相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.)。对于相关系数r,有以下判定惯例:当r的绝对值大于0.6,表示高度相关;在0.4到0.6之间,表示相关;小于0.4,表示不相关。r大于0,表示正相关;r小于0,表示负相关。虽然相关系数能够判别数据的相关性,但是还是要结合检验概率和实际情况进行判定,当检验概率小于0.05时,表示两列数据之间存在相关性。
Spearman相关
当定距数据不满足正态分布,不能使用皮尔逊相关分析,这时,可以在相关分析中引入秩分,借助秩分实现相关性检验,即先分别计算两个序列的秩分,然后以秩分值代替原始数据,代入到皮尔逊相关系数公式中,得到斯皮尔曼相关系数公式:
数据要求
不明分布类型的定距数据;
两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在斯皮尔曼相关性分析中,也能够得到相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
Kendall相关
当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。Kendall相关系数计算公式如下:
Kendall相关实质上是基于查看序列中有多少个顺序一致的对子的这个思路来判断数据的相关性水平。在Kendall相关性检验中,其核心思想是检验两个序列的秩分是否一致增减。因此,统计两序列中的“一致对”和“非一致对”的数量就非常重要。下面举例说明Kendall相关系数的计算过程:
假设有两个数据序列A和B的秩分序列分别是{2,4,3,5,1},{3,4,1,5,2},即相对应的秩对为(2,3)(4,4)(3,1)(5,5)(1,2)。在按照A的秩分排序后,得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5),此时B的秩分序列变成了{2,3,1,4,5}。在这种情况下,针对第一个B值2,后面有3,4,5比它大,有1比它小,所以一致对为3,非一致对为1;第二个数字3,有4,5比它大,有1比它小,所以一致对为2,非一致对为1;依次类推,总共有8个一致对,2个非一致对。即Nc=8,Nd=2。
数据要求
适用于不明分布的定序数据;
Pearson相关适用于正态分布定距数据;Spearman相关适用于不明分布定距数据;Kendall相关适用于不明分布定序数据。
结论分析
在肯德尔相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
案例分析
现在有一份《学生成绩数据》,如下图所示。请分析其中的语文、数学、英语、历史、地理成绩之间的相关性。
解题思路
观察图中数据可知,需要分析的数据都是定距数据,而且它们来自同一组样本(同一批学生)的多次多视角测试(不同学科考试),可以使用Pearson相关分析和Spearman相关分析。先对原始数据进行正态分布检验,对于满足正态分布检验的变量使用Pearson相关性分析,不满足正态分布检验的变量则使用Spearman等级相关检验。
解题步骤
1、利用【分析】-【非参数检验】-【旧对话框】-【1样本K-S】命令对语文、数学、英语、历史和地理成绩进行正态分布检验。
2、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Pearson】,对语文、数学、英语和地理成绩进行Pearson相关性检验。
3、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Spearman】,对历史、语文、数学、英语和地理成绩进行Spearman相关性检验。
结果解读
1、正态性检验结果;
发现除历史以外,其它数据变量的检验概率都大于0.05,都符合正态分布。
2、在皮尔逊相关分析中,语文、数学、英语和地理成绩之间的所有检验概率都大于0.05,说明它们之间都不存在相关性;同时,皮尔逊相关系数都小于0.4,也证明了它们之间没有相关性。
3、在斯皮尔曼相关分析中,历史、语文、数学、英语和地理之间的检验概率除了地理和语文之间小于0.05以外,其它都大于0.05。但这不能说明地理与语文成绩之间存在相关性。观察它们的相关系数为0.263,这说明它们之间也不存在相关性。在确定变量之间相关性时,应该结合检验概率与相关系数进行分析。不能只看其中一个数值就确定变量之间的相关性。
想深入学习统计学知识,为数据分析筑牢根基?那快来看看统计学极简入门课程!
学习入口:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0
课程由专业数据分析师打造,完全免费,60 天有效期且随到随学。它用独特思路讲重点,从数据种类到统计学体系,内容通俗易懂。学完它,能让你轻松入门统计学,还能提升数据分析能力。赶紧点击链接开启学习,让自己在数据领域更上一层楼!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25