京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS详细操作:碰见有序分类资料,怎么办
经常听到有小伙伴刚学了武林秘籍之卡方检验,只要碰到分类资料就一通乱打,虽说有时候能赢几场,但是也有被打的鼻青脸肿的,还自言自语的说,招数没毛病呀!?事实上毛病大了去了,与人过招,知己知彼,见招拆招,方能克敌制胜!所以我们先来捋捋分类资料的分析。
常见的分类资料可以分成四类:
老大,双向无序分类,特点是分组变量和结局变量均为无序多分类(或二分类),例如比较汉族、回族和蒙古族ABO血型分布有无差别;
老二,单向有序分类,分组变量或结局变量为有序变量,例如比较35-、45-、55-、65-岁组血脂异常的患病率有无差别,或者比较A和B两种药物对于疾病预后 (痊愈、显著改善、进步、无效)有无差异;
老三,双向有序属性不同的分类,这里既强调行变量和列变量均为有序分类资料,并且属性不相同(行列变量不一致),例如观察年龄对疾病预后有无影响(35-、45-、55-、65-岁组 vs 痊愈、显著改善、进步、无效);
老四,双向有序属性相同的分类,行变量和列变量均为有序分类资料,并且属性相同(行列变量一致),例如A和B两种方法对某种免疫物质的检出情况(--/-/+/++)。
(注:上文提到的“属性”,我们后期会专门推送一篇文章来讲解~)
针对双向无序分类和双向有序属性相同的分类资料的分析方法,前面几期有详细介绍,还没看过的小伙伴戳SPSS详细操作:多个独立样本列联表的卡方检验/SPSS详细操作:一致性检验和配对卡方检验。这次我们一块儿搞定单向有序分类和双向有序属性不同的分类资料的SPSS操作。
一、单向有序分类
血脂异常的患病率随着年龄增加而增加吗?
某研究小白在利用某项调查数据分析时,想研究一下年龄与血脂异常之间的关系,想起了之前学过的多个独立样本的卡方检验SPSS操作,于是照猫画虎,分析了一下手里的数据。
Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾选Row); Continue→ OK
看到分析结果,尤其是P=0.003,小白立刻眼睛冒光,马上超级自信地下了结论:经独立样本卡方检验,血脂异常的患病率随着年龄增加而增加(P=0.003),但是刚说完心里又犯嘀咕,想起之前学的独立样本卡方检验,好像这里只能说明不同年龄组之间血脂异常患病率有统计学差异。嗯,没错!这里如果只看Pearson Chi-Square的结果,会忽略年龄分组为有序变量这个信息点,损失了信息,所以这里更好的是看Linear-by-Linear Association的结果。
提到趋势性卡方检验,想必大家并不陌生,主要用来明确分类变量之间的线性趋势,比如这里的“血脂异常的患病率随着年龄增加而增加”。趋势性卡方检验最常用的方法是Cochran-Armitage trend test,很遗憾SPSS并没有提供这种方法,而是另一种方法Linear-by-Linear Association,两个结果相近,所以大家也可以放心使用。
听到这里,研究小白马上修改了结论:经趋势性卡方检验,血脂异常的患病率随着年龄增加而增加(P<0.001)。
拓展一下,相信不少小伙伴会想起Spearman秩相关,感觉这里好像也可以用Spearman秩相关来分析年龄组和血脂异常的关系。事实上,也是可以滴!但是趋势性卡方检验和Spearman秩相关有些不同。
Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾选)→OK
首先,严格地讲,做趋势性卡方检验时,需要对分组变量和结局变量进行评分赋值,连续变量取组中值为等级评分;如果是等级资料,给以顺序性的评分,如1、2、3……;分类资料,阳性或患病等为1,阴性或不患病等为0。这里就涉及到一个问题,对于Spearman秩相关是基于变量秩次进行相关分析的,比如说上面的例子,如果去掉55-岁组,趋势性卡方检验中变量评分为1、2、4,而Spearman秩相关是1、2、3,这就反映两种分析方法的利用信息能力不一样。
其次,两种方法的检验效能不同,趋势性卡方检验属于参数检验,当我们假定存在线性趋势时,检验效能更高;而Spearman秩相关计算变量秩次,损失了信息,相同条件下,检验效能较低,比如这里Spearman秩相关P=0.001,趋势性卡方检验P<0.001。
最后,两者得到的结论也有所不同,趋势性卡方检验可以直接得出“血脂异常的患病率随着年龄增加而增加”,而Spearman秩相关因为使用变量秩次分析,所以严格地讲,它反映的是两个分类变量秩次有相关,因为没有考虑变量的具体取值,更多是一种相对稳定的相关关系。
二、双向有序属性不同的分类
干活儿越重骨质退行越重?
有一项旨在探讨骨质退行性变是否与劳动强度有关,观察150名研究对象。劳动强度分为轻、中、重度,骨质退行性变为2、3、4度,两个变量都属于等级变量,但是属性不同。
对于双向有序属性不同的资料,有的小伙伴就说啦,可以用Spearman秩相关嘛,有些小伙伴就要很疑惑,为什么不可以用卡方检验呢?
这里和大家一块儿掰扯掰扯。对于等级资料相关分析,Spearman秩相关也是可以计算滴,但问题关键是,在做秩相关时,需要对原始数据进行编秩次,因为是等级资料,所以会产生大量秩次相等的平均秩次,进而低估了变量之间的关联系数。
如果是独立样本的卡方检验呢?那就错的比较离谱一些!卡方检验的核心是列联表中每一个格子中的理论频数和实际观测频数偏离程度,行和列的位置是不重要的(比如你可以把行列互换,或者把第一行和第二行互换),结果都是一样的。问题就来了,这样就损失了变量“有序”——这个非常关键的信息点,比如这里例子,我们想知道是不是劳动强度越重,骨质退行越重。
有小伙伴要着急了,这也不行,那也不行,到底要咋整?给大家带来重量级武器——Goodman-Kruskal Gamma方法(简称Gamma法)。Gamma法主要用于有序分类资料的关联性分析,并且计算Gamma系数(类似于Spearman秩相关rs)。
Gamma系数取值在-1到1之间,G=0表示两个变量不相关,G>0表示两个变量正相关,G<0表示两个变量负相关;G的绝对值越接近1,表示两个变量的关联强度越大,越接近0,关联程度越小。
下面一起看看SPSS怎么进行Gamma。
Analyze →Descriptive Statistics →Crosstabs: Row(劳动强度); Column(骨退变)→Statistics: Gamma; Continue →OK
上面的结果显示:G=0.244,P=0.025<0.05,劳动强度与骨退变之间互相关联,即随着劳动强度增加,骨质退行越重,关联系数为0.244。
再看看Spearman秩相关的结果。
Analyze →Correlate →Bivariate →Variables: 劳动强度,骨退变; Correlation Coefficients: Spearman(勾选)→OK
可以看到Spearman秩相关系数rs=0.183,小于G(0.244),低估了变量之间的关联强度。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22