京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS非参数检验:独立样本
一、概念:
独立样本的非参数检验是在对总体分布不甚了解的情况下,通过对两组或多组独立样本的分析来推断样本来自的总体的分布等是否存在显著差异的方法。独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。
二、选择检验(分析-非参数检验-独立样本-设置-选择检验)
1、根据数据自动选择检验。该设置将对具有两个组的数据应用Mann-Whitney U检验,或对具有k个组的数据应用Kruskal-Wallis单因素ANOVA检验。
2、自定义检验。这些设置允许您选择要执行的特定检验。
2.1、比较不同组间的分布。这些将生成独立样本检验,即样本是否来自同一总体。◎Mann-Whitney U(二样本)使用每个个案的秩来检验组是否抽取自同一总体。分组字段中按升序排列的第一个值定义第一个组,第二个值定义第二个组。如果分组字段有两个以上的值,则不生成此检验。◎Kolmogorov-Smirnov(二样本)对两个分布间中位数、离散、偏度等的任何差异很敏感。如果分组字段有两个以上的值,则不生成此检验。◎检验随机序列(二样本Wald-Wolfowitz)生成一个以组成员关系为准则的游程检验。如果分组字段有两个以上的值,则不生成此检验。◎Kruskal-Wallis单因素ANOVA(k样本)是Mann-Whitney U检验的扩展,它也是单因素方差分析的非参数模拟。您可以根据需要请求对k样本的多重比较,即所有成对多重比较或逐步降低比较。◎有序选项检验(k样本Jonckheere-Terpstra)可作为比Kruskal-Wallis功能更强大的选项,但前提是k样本需具有自然顺序。例如,k个总体可能代表k个上升的温度。“不同的温度产生相同的响应分布”这一假设是针对“温度升高,则响应的幅度增加”这一选择进行检验的。此处备选假设已排序,因此,Jonckheere-Terpstra是最适用的检验。指定其他假设的顺序;从最小到最大规定其他假设:第一组的位置参数不等于第二组,第二组又不等于第三组,依此类推;从最大到最小规定其他假设:最后一组的位置参数不等于倒数第二组,倒数第二组又不等于倒数第三组,依此类推。您可以根据需要请求对k样本的多重比较,即所有成对多重比较或逐步降低比较。
2.2、比较不同组间的范围。这可以生成一个独立样本检验,即样本是否具有相同范围。◎Moses极端反应(二样本)检验控制组与比较组。分组字段中按升序排列的第一个值定义控制组,第二个值定义比较组。如果分组字段有两个以上的值,则不生成此检验。
2.3、比较不同组间的中位数。这可以生成一个独立样本检验,即样本是否具有相同中位数。◎中位数检验(k样本)可以使用汇聚样本中位数(从数据集所有记录中计算)或自定义值作为假设中位数。您可以根据需要请求对k样本的多重比较,即所有成对多重比较或逐步降低比较。
2.4、估计不同组间的置信区间。Hodges-Lehman估计(二样本)可以为两个组的中位数差异生成一个独立样本估计和置信区间。如果分组字段有两个以上的值,则不生成此检验。
三、方法:
1、曼-惠特尼U检验:两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。其原假设:两组独立样本来自的两总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现判断。秩简单说就是变量值排序的名次,可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中的位置或名次,这个位置或名次就是变量值的秩。
2、K-S检验:K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。其原假设是:两组独立样本来自的两总体的分布无显著差异。这里是以变量值的秩作为分析对象,而非变量值本身。
3、游程检验:单样本游程检验是用来检验变量值的出现是否随机,而两独立变量的游程检验则是用来检验两独立样本来自的两总体的分布是否存在显著差异。其原假设是:两组独立样本来自的两总体的分布无显著差异。两独立样本的游程检验与单样本游程检验的思想基本相同,不同的是计算游程数的方法。两独立样本的游程检验中,游程数依赖于变量的秩。
4、极端反应检验:极端反应检验从另一个角度检验两独立样本所来自的两总体分布是否存在显著差异。其原假设是:两独立样本来自的两总体的分布无显著差异。
基本思想是:将一组样本作为控制样本,另一组样本作为实验样本。以控制样本作为对照,检验实验样本相对于控制样本是否出现了极端反应。如果实验样本没有出现极端反应,则认为两总体分布无显著差异,相反则认为存在显著差异。
5、中位数检验:中位数检验通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。其原假设是:多个独立样本来自的多个总体的中位数无显著差异。
基本思想是:如果多个总体的中位数无显著差异,或者说多个总体有共同的中位数,那么这个共同的中位数应在各样本组中均处在中间位置上。于是,每组样本中大于该中位数或小于该中位数的样本数目应大致相同。
6、Kruskal-Wallis检验:Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广,也用于检验多个总体的分布是否存在显著差异。其原假设是:多个独立样本来自的多个总体的分布无显著差异。
基本思想是:首先,将多组样本数据混合并按升序排序,求出各变量值的秩;然后,考察各组秩的均值是否存在显著差异。容易理解:如果各组秩的均值不存在显著差异,则是多组数据充分混合,数值相差不大的结果,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合,某些组的数值普遍偏大,另一些组的数值普遍偏小的结果,可以认为多个总体的分布有显著差异。
7、Jonckheere-Terpstra检验:Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法,其原假设是:多个独立样本来自的多个总体的分布无显著差异。
基本思想与两独立样本的曼-惠特尼U检验类似,也是计算一组样本的观察值小于其他组样本的观察值的个数。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27