
SPSS分析技术:Pearson相关、Spearman相关及Kendall相关
通过文章(点击蓝字即可回顾阅读):数据分析技术:数据关联性分析综述,我们知道数据的关联性分析可以分为两个大类:相关性分析和回归分析。根据数据种类的不同(定距、定序和定类),它们又有不同的分析方法。可以通过下面的思维导图帮助记忆:
常用的相关性分析包括:皮尔逊(Pearson)相关、斯皮尔曼(Spearman)相关、肯德尔(Kendall)相关和偏相关。下面介绍前三种相关分析技术,并用实际案例说明如何用SPSS使用这三种相关性分析技术。三种相关性检验技术,Pearson相关性的精确度最高,但对原始数据的要求最高。Spearman等级相关和Kendall一致性相关的使用范围更广,但精确度较差。
Pearson相关
皮尔逊相关是利用相关系数来判定数据之间的线性相关性,相关系数r的公式如下:
数据要求
正态分布的定距变量;
两个数据序列的数据要一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在皮尔逊相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.)。对于相关系数r,有以下判定惯例:当r的绝对值大于0.6,表示高度相关;在0.4到0.6之间,表示相关;小于0.4,表示不相关。r大于0,表示正相关;r小于0,表示负相关。虽然相关系数能够判别数据的相关性,但是还是要结合检验概率和实际情况进行判定,当检验概率小于0.05时,表示两列数据之间存在相关性。
Spearman相关
当定距数据不满足正态分布,不能使用皮尔逊相关分析,这时,可以在相关分析中引入秩分,借助秩分实现相关性检验,即先分别计算两个序列的秩分,然后以秩分值代替原始数据,代入到皮尔逊相关系数公式中,得到斯皮尔曼相关系数公式:
数据要求
不明分布类型的定距数据;
两个数据序列的数据一一对应,等间距等比例。数据序列通常来自对同一组样本的多次测量或不同视角的测量。
结论分析
在斯皮尔曼相关性分析中,也能够得到相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
Kendall相关
当既不满足正态分布,也不是等间距的定距数据,而是不明分布的定序数据时,不能使用Pearson相关和Spearman相关。此时,在相关分析中引入“一致对”的概念,借助“一致对”在“总对数”中的比例分析其相关性水平。Kendall相关系数计算公式如下:
Kendall相关实质上是基于查看序列中有多少个顺序一致的对子的这个思路来判断数据的相关性水平。在Kendall相关性检验中,其核心思想是检验两个序列的秩分是否一致增减。因此,统计两序列中的“一致对”和“非一致对”的数量就非常重要。下面举例说明Kendall相关系数的计算过程:
假设有两个数据序列A和B的秩分序列分别是{2,4,3,5,1},{3,4,1,5,2},即相对应的秩对为(2,3)(4,4)(3,1)(5,5)(1,2)。在按照A的秩分排序后,得到新的秩对(1,2)(2,3)(3,1)(4,4)(5,5),此时B的秩分序列变成了{2,3,1,4,5}。在这种情况下,针对第一个B值2,后面有3,4,5比它大,有1比它小,所以一致对为3,非一致对为1;第二个数字3,有4,5比它大,有1比它小,所以一致对为2,非一致对为1;依次类推,总共有8个一致对,2个非一致对。即Nc=8,Nd=2。
数据要求
适用于不明分布的定序数据;
Pearson相关适用于正态分布定距数据;Spearman相关适用于不明分布定距数据;Kendall相关适用于不明分布定序数据。
结论分析
在肯德尔相关性分析中,能够得到两个数值:相关系数(r)和检验概率(Sig.),当检验概率小于0.05时,表示两列数据之间存在相关性。
案例分析
现在有一份《学生成绩数据》,如下图所示。请分析其中的语文、数学、英语、历史、地理成绩之间的相关性。
解题思路
观察图中数据可知,需要分析的数据都是定距数据,而且它们来自同一组样本(同一批学生)的多次多视角测试(不同学科考试),可以使用Pearson相关分析和Spearman相关分析。先对原始数据进行正态分布检验,对于满足正态分布检验的变量使用Pearson相关性分析,不满足正态分布检验的变量则使用Spearman等级相关检验。
解题步骤
1、利用【分析】-【非参数检验】-【旧对话框】-【1样本K-S】命令对语文、数学、英语、历史和地理成绩进行正态分布检验。
2、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Pearson】,对语文、数学、英语和地理成绩进行Pearson相关性检验。
3、利用【分析】-【相关】-【双变量】命令,在相关系数中选择【Spearman】,对历史、语文、数学、英语和地理成绩进行Spearman相关性检验。
结果解读
1、正态性检验结果;
发现除历史以外,其它数据变量的检验概率都大于0.05,都符合正态分布。
2、在皮尔逊相关分析中,语文、数学、英语和地理成绩之间的所有检验概率都大于0.05,说明它们之间都不存在相关性;同时,皮尔逊相关系数都小于0.4,也证明了它们之间没有相关性。
3、在斯皮尔曼相关分析中,历史、语文、数学、英语和地理之间的检验概率除了地理和语文之间小于0.05以外,其它都大于0.05。但这不能说明地理与语文成绩之间存在相关性。观察它们的相关系数为0.263,这说明它们之间也不存在相关性。在确定变量之间相关性时,应该结合检验概率与相关系数进行分析。不能只看其中一个数值就确定变量之间的相关性。
想深入学习统计学知识,为数据分析筑牢根基?那快来看看统计学极简入门课程!
学习入口:https://edu.cda.cn/goods/show/3386?targetId=5647&preview=0
课程由专业数据分析师打造,完全免费,60 天有效期且随到随学。它用独特思路讲重点,从数据种类到统计学体系,内容通俗易懂。学完它,能让你轻松入门统计学,还能提升数据分析能力。赶紧点击链接开启学习,让自己在数据领域更上一层楼!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-07-30SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-07-30人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-07-30MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-29左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-29CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-29CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-29解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-29解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-29鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-29用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-29从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-29CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-29解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-29用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-29从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-292025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-29PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-29t 检验与 Wilcoxon 检验:数据差异分析的两大核心方法 在数据分析的广阔领域中,判断两组或多组数据之间是否存在显著差异是一项 ...
2025-07-29PowerBI 添加索引列全攻略 在使用 PowerBI 进行数据处理与分析时,添加索引列是一项极为实用的操作技巧。索引列能为数据表中的每 ...
2025-07-29