京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS:多个样本率的卡方检验及两两比较
1、问题与数据
某医生拟探讨药物以外的其他方法是否可降低患者的胆固醇浓度,如增强体育锻炼、减少体重及改善饮食习惯等。
该医生招募了150位高胆固醇、生活习惯差的受试者,并将其随机分成3组。其中一组给予降胆固醇药物,一组给予饮食干预,另一组给予运动干预。经过6个月的试验后,该医生重新测量受试者的胆固醇浓度,分为高和正常两类。
该医生收集了受试者接受的干预方法(intervention)和试验结束时胆固醇的风险程度(risk_level)等变量信息,并按照分类汇总整理,部分数据如下:
注释:本研究将胆固醇浓度分为“高”和“正常”两类,只是为了分析的方便,并不代表临床诊断结果。
2、对问题的分析
研究者想判断干预后多个分组情况的不同。如本研究中经过降胆固醇药物、饮食和运动干预后,比较各组胆固醇浓度的变化情况。针对这种情况,我们建议使用卡方检验(2×C),但需要先满足5项假设:
假设1:观测变量是二分类变量,如本研究中试验结束时胆固醇的风险程度变量是二分类变量。
假设2:存在多个分组(>2个),如本研究有3个不同的干预组。
假设3:具有相互独立的观测值,如本研究中各位受试者的信息都是独立的,不会相互干扰。
假设4:研究设计必须满足:(a) 样本具有代表性,如本研究在高胆固醇、生活习惯差的人群中随机抽取150位受试者;(b) 目的分组,可以是前瞻性的,也可以是回顾性的,如本研究中将受试者随机分成3组,分别给予降胆固醇药物、饮食和运动干预。
假设5:样本量足够大,最小的样本量要求为分析中的任一预测频数大于5。
经分析,本研究数据符合假设1-4,那么应该如何检验假设5,并进行卡方检验(2×C)呢?
3、思维导图
4、SPSS操作
4.1 数据加权
在进行正式操作之前,我们需要先对数据加权,如下:
(1)在主页面点击Data→Weight Cases
弹出下图:
(2)点击Weight cases by,激活Frequency Variable窗口
(3)将freq变量放入Frequency Variable栏
(4)点击OK
4.2 检验假设5
数据加权之后,我们要判断研究数据是否满足样本量要求,如下:
(1)在主页面点击Analyze→Descriptive Statistics→Crosstabs
弹出下图:
(2)将变量intervention和risk_level分别放入Row(s)栏和Column(s)栏
(3)点击Statistics,弹出下图:
(4)点击Chi-square
(5)点击Continue→Cells
(6)点击Counts栏中的Expected选项
(7)点击Continue→OK
经上述操作,SPSS输出预期频数结果如下:
该表显示,本研究最小的预测频数是24.7,大于5,满足假设5,具有足够的样本量。Chi-Square Tests 表格也对该结果做出提示,如下标注部分:
即在本研究中,没有小于5的预测频数,可以直接进行卡方检验(2×C)。那么,如果存在预测频数小于5的情况,我们应该怎么办呢?一般来说,如果预测频数小于5,就需要进行Fisher精确检验(2×C),我们将在后面推送的内容中向大家详细介绍。
4.3 方检验(2×C)的SPSS操作
(1)在主页面点击Analyze→Descriptive Statistics→Crosstabs
弹出下图:
(2)点击Statistics,弹出下图:
(3)点击Chi-square
(4)点击Continue→Cells
(5)点击Percentage栏中的Column选项
(6)点击Continue→OK
4.4 组间比较
(1)在主页面点击Analyze→Descriptive Statistics→Crosstabs
弹出下图:
(2)点击Cells,弹出下图:
(3)点击z-test栏中的Compare column proportions和Adjust p-values (Bonferroni method)选项
(4)点击Continue→OK
5、结果解释
5.1 统计描述
在进行卡方检验(2×C)的结果分析之前,我们需要先对研究数据有个基本的了解。SPSS输出结果如下:
该表提示,本研究共有150位受试者,根据干预方式均分为3组。在试验结束时,药物干预组的50位受试者中有16位胆固醇浓度高,饮食干预组的50位受试者中有28位胆固醇浓度高,而运动干预组的50位受试者中有30位胆固醇浓度高,如下标注部分:
由此可见,药物干预比饮食或运动干预的疗效更好。同时,该表也提示,药物干预组的50位受试者中有34位胆固醇浓度下降,饮食干预组的50位受试者中有22位胆固醇浓度下降,而运动干预组的50位受试者中只有20位胆固醇浓度下降,如下标注部分:
但是,当各组样本量不同时,频数会误导人们对数据的理解。因此,我们推荐使用频率来分析结果,如下标注部分:
该表提示,药物干预组的50位受试者中68%胆固醇浓度下降,饮食干预组的50位受试者中44%胆固醇浓度下降,而运动干预组的50位受试者中只有40%胆固醇浓度下降,提示药物干预比饮食和运动干预更有效。但是这种直接的数据比较可能受到抽样误差的影响,可信性不强,我们还需要进行统计学检验。
5.2 卡方检验(2×C)结果
本研究中任一预测频数均大于5,所以根据Chi-Square Tests表格分析各组的差别。SPSS输出检验结果如下:
卡方检验(2×C)结果显示χ2=9.175,P= 0.010,说明本研究中各组之间率的差值与0的差异具有统计学意义,提示药物干预与饮食、运动干预在降低受试者胆固醇浓度的作用上存在不同。如果P>0.05,那么就说明各组之间率的差值与0的差异没有统计学意义,即不认为各组之间存在差异。
5.3 卡方检验(2×C)中的成对比较分析
如果卡方检验(2×C)的P<0.05,说明至少有两组之间的差异存在统计学意义。SPSS输出的risk_level * intervention Crosstabulation表格通过数字标记提示了两两比较的结果,如下标注部分:
大家可能会注意到,每组数据的标记相同(即上下两行的标记相同),那么我们只要知道组间标记的作用即可。
那么,risk_level * intervention Cross tabulation表格的标记是什么意思呢?第一种情况,各组间无差异,如下:
如上图,各组间标记一致,说明各组之间无差异。第二种情况,任意两组之间均存在差异,如下:
即每组标记字母均不相同,说明任意两组之间的差异均存在统计学意义。第三种情况,有些组之间存在差异,而另一些组之间的差异没有统计学意义,如下:
如果任两组之间标记字母相同,说明这两组之间的差异没有统计学意义;如果两组标记字母不同,说明这两组之间的差异存在统计学意义。
根据这一原则,分析本研究结果如下:
该表说明,在本研究中,药物干预的降胆固醇作用(“a”)与饮食干预的降胆固醇作用(“b”)的差异存在统计学意义(P<0.05),药物干预的降胆固醇作用(“a”)也与运动干预的降胆固醇作用(“b”)的差异存在统计学意义(P<0.05),而饮食干预(“b”)与运动干预(“b”)在降胆固醇的作用上没有差异。
6、撰写结论
6.1 若卡方检验(2×C)的P<0.05
本研究招募150位高胆固醇、生活习惯差的受试者,随机分组后分别给予药物、饮食和运动干预。试验结束时,药物干预组有34位(68%)胆固醇浓度下降,饮食干预组有22位(44%)胆固醇浓度下降,而运动干预组有20位(40%)胆固醇浓度下降,三组差异具有统计学意义(P=0.010)。
成对比较结果提示,药物干预的降胆固醇效果好于饮食或运动干预(P<0.05),而饮食与运动干预在降低胆固醇浓度上的作用无差异(P>0.05)。
6.2 若卡方检验(2×C)的P≥0.05
本研究招募150位高胆固醇、生活习惯差的受试者,随机分组后分别给予药物、饮食和运动干预。试验结束时,药物干预组有24位(48%)胆固醇浓度下降,饮食干预组有22位(44%)胆固醇浓度下降,而运动干预组有20位(40%)胆固醇浓度下降,三组结果的差异没有统计学意义(P=0.620)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22