生存曲线的估计方法（3）：寿命表法-CDA数据分析师官网

热线电话：13121318867

生存曲线的估计方法（3）：寿命表法

2020-12-10

公众号：丁点帮你

作者：丁点helper

最近的生存分析系列文章都是介绍生存曲线的估计方法的，其中一篇讲了如何通过每一例患者的生存时间绘制生存曲线、估计生存率，这种方法被称为K-M法，是因为该方法最早是由Kaplan和Meier这两个人提出的；另一篇讲了如何理解生存率的95%置信区间。

回顾一下前面讲过的例子：为了解肺癌患者接受某种治疗后的生存状况，研究者收集了12名肺癌患者治疗后的住院资料。我们将12名观察对象的生存时间由小到大依次排列，可以计算每个时间点的生存概率，进而计算每个时间点的生存率。

然而在实际工作中，经常会遇到样本含量较大的随访资料，例如大型的队列研究。研究人员只会在计划好的时间点对所有研究对象进行随访（例如每年一次），而不会与每个研究对象持续保持联系，准确记录结局发生/删失发生的具体时间。

因此，某些个体的结局/删失发生在两次随访之间，研究者就不能获得其确切的生存时间，只能确定生存时间的区间。在这种情况下，可将原始资料按照生存时间分组再进行分析。

下面我们用一个例子来看看这种方法是如何实现的。

案例：为了解尘肺患者的生存期，回顾性调查了某煤矿确诊为尘肺的患者1166人，其生存时间列于下表。

与K-M法相比，这一方法中的生存时间由一个确切时间变为了一个时间区间（上表中的『确诊年数 ti』这一列）。

这种变化类似于制作频数分布表的过程，上表是对1166名患者的生存时间做了一个频数分布表，比如第一行中的数据就表示，确诊为尘肺后，寿命少于2年的有51人。教科书中把这样整理数据并估计生存率的方法叫做寿命表法。

接下来我们来一步步搞懂上面这张表。

第（1）~（4）列

在背景中讲过，本案例中患者确切的生存时间无从知晓，只能知道在哪个区间。所以要想把1166名患者的生存时间整合起来，就需要按照生存时间的区间来整理，也就是统计每个区间的人数。

你可能会问，为什么上表是以2年为一个区间呢？其实这个区间的宽度是根据随访时间和观察例数来确定的，可根据实际情况合理调整。

一般每个区间为半闭半开区间，最后一个区间终点在无穷大。本例分成了22个时间区间。

在确定分组区间之后，就要统计每个区间内的死亡人数di、删失人数ci以及期初观察人数ni。第一个时间区间的期初观察人数是所有的观察例数；下一个区间的期初观察例数按以下公式计算：

，这和之前讲过的K-M法是一样的。

第（5）~（7）列

在计算某一时间区间内的死亡概率时，需要用该区间内的死亡人数除以该区间内的观察人数，即

。但是当区间内存在删失时，这些个体并未观察至区间的终点，因此这里用期初观察人数做分母不太妥当。只有当删失数为0时，区间内有效观察人数才等于ni。

在一个特定时间区间内，我们假定删失个体发生的时间是均匀分布的，有的在区间刚开始就删失了，有的则在区间快要结束时才删失。把这些删失个体看做一个整体，相当于一半的个体在区间开始时删失，而另一半则存活到了区间结束。因此，可以认为区间内的有效观察人数为：

也被称为期初校正人数。

接下来每一个时间区间的死亡概率和生存概率也就很好计算了：

比如第三个区间（

），66名患者死亡，死亡概率就是：66/1069.5；对应的生存概率就是：1 - 66/1069.5。

上面的计算中，分母是1069.5，这个数值是怎么来的？计算过程如下：

先计算期初人数 = 1166-51-45 = 1070
再计算期初校正人数 =1070 - 1/2 = 1069.5

第（8）~（9）列

接下来的一列就是生存分析中最关心的『生存率

』这一指标了。和之前讲过的一样，各时间点的生存率就是各区间生存概率的乘积。

......注意各时间区间对应的生存率应是该区间上限时间点的生存率，例如上表中第5个区间 [8, 10)对应的生存率为0.7565，意思是某患者确诊为尘肺后预测其活过10年的生存率为75.65%，而不是活过8年的生存率。

最后，再说说为什么要出现表中最后一列『生存率的标准误

』。我们这个表中每个区间的生存率都是用样本计算出来的，要想通过样本了解总体的情况，或者说想估计总体生存率的95%置信区间，就需要用到

。具体解释和计算方法在前文中有详细介绍。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析师，到底要懂多少业务？

下一篇CDA LEVEL I 数据分析认证考试模拟题库（六）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

生存曲线的估计方法（3）：寿命表法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载