京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS详细教程:相对危险度(RR)的计算
一、问题与数据
研究者想探索吸烟与肺癌间的关联,即吸烟者患肺癌的风险是否比不吸烟者高以及高多少。研究者从一般人群中随机抽样700名调查对象建立前瞻性队列研究。调查对象的吸烟状态为吸烟或不吸烟。在研究开始时,所有调查对象均未患肺癌。研究者随访10年记录调查对象是否患肺癌。
因此,研究者可以分别得到患肺癌的吸烟者、未患肺癌的吸烟者、患肺癌的不吸烟者和未患肺癌的不吸烟者的人数,据此可以计算吸烟组与不吸烟组的风险差异。
本例中代表吸烟状态的变量为smoking_status,吸烟赋值为1,不吸烟赋值为2;代表随访期肺癌发病与否的变量为lung_cancer,患肺癌赋值为1,未患肺癌赋值为2。
部分数据截图如下,左侧为原始数据,右侧为按不同吸烟状态和患肺癌与否统计的汇总数据。
二、对问题的分析
为计算相对危险度(RR),需要满足以下假设:
假设1:因变量和自变量均为二分类变量。
假设2:各观测间相互独立。
接下来将详细介绍如何计算相对危险度。
三、SPSS操作
1. 数据准备
如果研究者使用原始数据,则跳过数据准备步骤,直接计算相对危险度;如果使用按不同吸烟状态和患肺癌与否来统计得到汇总数据,则需要添加权重,步骤如下。
(1)点击主菜单Data > Weight Cases,如下图:
点击后出现Weight Cases对话框,如下图:
(2)勾选Weight cases by选项,激活 键和Frequency Variable: 框,如下图:
(3)将变量freq选入Frequency Variable框,如下图:
(4)点击OK键,为数据加权。
2. 相对危险度的SPSS操作
(1)点击主菜单Analyze > Descriptive Statistics > Crosstabs,如下图:
点击后出现Crosstabs对话框,如下图:
注意:如果使用频数统计的数据文件,Crosstabs对话框如下图:
(2)将自变量smoking_status选入Row(s)框,因变量lung_cancer选入Column(s)框,如下图:
注意:如果使用频数统计的数据文件,Crosstabs对话框如下图:
(3)点击Statistics键,出现Crosstabs:Statistics对话框,如下图:
(4)勾选Risk,如下图:
(5)点击Continue键,返回Crosstabs对话框。
(6)点击Cells键,出现Crosstabs:Cell Display对话框,如下图:
(7)勾选Percentanges区域的Row,如下图:
(8)点击Continue键,返回Crosstabs对话框。
(9)点击OK键,生成结果。
四、结果解释
1. 描述性统计分析
在报告相对危险度前,研究者应该先查看基本的一些统计量,了解数据特征。本例中在smoking_status*lung_cancer Crosstabulation表,如下图:
首先,表中可看到在350名吸烟者中患肺癌的人数,如下图高亮:
随访期间29名吸烟者患肺癌,即8.3%(29÷350*100%=8.3%)的吸烟者患肺癌。
注意:表中仅保留了一位小数,SPSS会自动计算相对危险度;如果研究者想得到更多小数位数手动计算的相对危险度,则双击smoking_status*lung_cancer Crosstabulation表,如下图。可观察到8.3%变为8.285714%。
其次,还能看到350名不吸烟者中患肺癌的人数,如下图:
随访期间9名不吸烟者患肺癌,即2.6%(9÷350*100%=2.6%)的不吸烟者患肺癌。研究者想得到更多小数位数手动计算的相对危险度,也可以如上操作,2.6%变为2.571429%,如下图:
从smoking_status*lung_cancer Crosstabulation表中可以得到初步结论:与不吸烟者相比,吸烟者患肺癌的风险更高。
研究者可以汇报:本研究随机抽样700名调查对象,吸烟者和不吸烟者各350名,吸烟者患肺癌的比例(8.3%)高于不吸烟者(2.6%)。
当然,研究者也可以选择分别汇报患肺癌的吸烟者、未患肺癌的吸烟者、患肺癌的不吸烟者和未患肺癌的不吸烟者的人数。
2. 相对危险度
相对危险度结果可以在Risk Table表中查看,如下图高亮显示。
注意:表中高亮显示的为“For cohort lung_cancer=Yes”行,不是“For cohort lung_cancer=No”,因为研究者感兴趣的是吸烟对患肺癌的影响。
吸烟者患肺癌的相对危险度是3.222,95%置信区间为1.548到6.707。95%置信区间说明研究者有95%的把握说明人群中真实的相对危险度在1.548和6.707间。
如果研究者手动计算相对危险度,则需要吸烟者患肺癌的比例即0.08285714和不吸烟者患肺癌的比例即0.02571429。将两个比例输入到相对危险度计算公式,如下图:
如果相对危险度大于1且95%置信区间不包括1,说明暴露组发生疾病的风险高于非暴露组,是结局的危险因素。本例中相对危险度3.222说明吸烟者患肺癌的风险高出不吸烟者222%。研究者还可以计算超额危险度,公式如下,其中RR为相对危险度。
本例中,超额危险度则为:
如果相对危险度小于1且95%置信区间不包括1,则意味着暴露组患病风险降低,是结局的保护因素。例如,相对危险度为0.34,代表与非暴露组相比,暴露组研究对象发生疾病的风险降低66%,计算如下。负号代表发生疾病的风险降低。
如果相对危险度的95%置信区间包括1,说明暴露组与非暴露组发生疾病的风险差异无统计学意义。
提示:研究者必须把自变量smoking_status选入Row(s),因变量lung_cancer选入Column(s)。如果选反,则会出现如下结果。
上表中相对危险度为1.574,95%置信区间上下限也分别变为1.297和1.910。因此,研究者需注意选对自变量和因变量。
综上,研究者可以汇报:本研究随机抽样700名调查对象,吸烟者和不吸烟者各350名,吸烟者患肺癌的比例(8.3%)高于不吸烟者(2.6%)。与不吸烟者相比,吸烟者患肺癌的相对危险度为3.222(95%置信区间为1.548-6.707)。
五、撰写结论
如果相对危险度95%置信区间不包括1,可以汇报:
本研究随机抽样700名调查对象,吸烟者和不吸烟者各350名,吸烟者患肺癌的比例(8.3%)高于不吸烟者(2.6%)。与不吸烟者相比,吸烟者患肺癌的相对危险度为3.222(95%置信区间为1.548-6.707),且有统计学意义。
如果相对危险度95%置信区间包括1,可以汇报(另外列举一个例子):
有900名永久性房颤病人随机分配至两组,每组450名,一组使用降低脑卒中风险的新药,另外一组使用常规药物。使用新药的房颤病人中11人(2.4%)患脑卒中,使用常规药物病人24人(4.7%)患脑卒中。与使用常规药物的房颤病人相比,使用新药的病人患脑卒中的相对危险度为0.524(95%置信区间为0.256-1.074),没有统计学意义。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08