京公网安备 11010802034615号
经营许可证编号:京B2-20210330
公众号:丁点帮你
作者:丁点helper
最近的生存分析系列文章都是介绍生存曲线的估计方法的,其中一篇讲了如何通过每一例患者的生存时间绘制生存曲线、估计生存率,这种方法被称为K-M法,是因为该方法最早是由Kaplan和Meier这两个人提出的;另一篇讲了如何理解生存率的95%置信区间。
回顾一下前面讲过的例子:为了解肺癌患者接受某种治疗后的生存状况,研究者收集了12名肺癌患者治疗后的住院资料。我们将12名观察对象的生存时间由小到大依次排列,可以计算每个时间点的生存概率,进而计算每个时间点的生存率。
然而在实际工作中,经常会遇到样本含量较大的随访资料,例如大型的队列研究。研究人员只会在计划好的时间点对所有研究对象进行随访(例如每年一次),而不会与每个研究对象持续保持联系,准确记录结局发生/删失发生的具体时间。
因此,某些个体的结局/删失发生在两次随访之间,研究者就不能获得其确切的生存时间,只能确定生存时间的区间。在这种情况下,可将原始资料按照生存时间分组再进行分析。
下面我们用一个例子来看看这种方法是如何实现的。
案例:为了解尘肺患者的生存期,回顾性调查了某煤矿确诊为尘肺的患者1166人,其生存时间列于下表。
与K-M法相比,这一方法中的生存时间由一个确切时间变为了一个时间区间(上表中的『确诊年数 ti』这一列)。
这种变化类似于制作频数分布表的过程,上表是对1166名患者的生存时间做了一个频数分布表,比如第一行中的数据就表示,确诊为尘肺后,寿命少于2年的有51人。教科书中把这样整理数据并估计生存率的方法叫做寿命表法。
接下来我们来一步步搞懂上面这张表。
第(1)~(4)列
在背景中讲过,本案例中患者确切的生存时间无从知晓,只能知道在哪个区间。所以要想把1166名患者的生存时间整合起来,就需要按照生存时间的区间来整理,也就是统计每个区间的人数。
你可能会问,为什么上表是以2年为一个区间呢?其实这个区间的宽度是根据随访时间和观察例数来确定的,可根据实际情况合理调整。
一般每个区间为半闭半开区间,最后一个区间终点在无穷大。本例分成了22个时间区间。
在确定分组区间之后,就要统计每个区间内的死亡人数di、删失人数ci以及期初观察人数ni。第一个时间区间的期初观察人数是所有的观察例数;下一个区间的期初观察例数按以下公式计算:
,这和之前讲过的K-M法是一样的。
第(5)~(7)列
在计算某一时间区间内的死亡概率时,需要用该区间内的死亡人数除以该区间内的观察人数,即
。但是当区间内存在删失时,这些个体并未观察至区间的终点,因此这里用期初观察人数做分母不太妥当。只有当删失数为0时,区间内有效观察人数才等于ni。
在一个特定时间区间内,我们假定删失个体发生的时间是均匀分布的,有的在区间刚开始就删失了,有的则在区间快要结束时才删失。把这些删失个体看做一个整体,相当于一半的个体在区间开始时删失,而另一半则存活到了区间结束。因此,可以认为区间内的有效观察人数为:
也被称为期初校正人数。
接下来每一个时间区间的死亡概率和生存概率也就很好计算了:
比如第三个区间(
),66名患者死亡,死亡概率就是:66/1069.5;对应的生存概率就是:1 - 66/1069.5。
上面的计算中,分母是1069.5,这个数值是怎么来的?计算过程如下:
第(8)~(9)列
接下来的一列就是生存分析中最关心的『生存率
』这一指标了。和之前讲过的一样,各时间点的生存率就是各区间生存概率的乘积。
......注意各时间区间对应的生存率应是该区间上限时间点的生存率,例如上表中第5个区间 [8, 10)对应的生存率为0.7565,意思是某患者确诊为尘肺后预测其活过10年的生存率为75.65%,而不是活过8年的生存率。
最后,再说说为什么要出现表中最后一列『生存率的标准误
』。我们这个表中每个区间的生存率都是用样本计算出来的,要想通过样本了解总体的情况,或者说想估计总体生存率的95%置信区间,就需要用到
。具体解释和计算方法在前文中有详细介绍。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04