生存曲线的估计方法（1）：先看懂这个表-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读生存曲线的估计方法（1）：先看懂这个表

生存曲线的估计方法（1）：先看懂这个表

2020-10-20

作者：丁点helper

来源：丁点帮你

前面两篇文章初步介绍了生存分析基本入门的内容，今天我们来看看实际应用中怎么估计生存率。具体的方法和术语我们先不讲，首先来看例子。

案例：为了解肺癌患者接受某种治疗后的生存状况，研究者收集了12名肺癌患者手术加化疗的住院资料。他们的生存时间（月）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+。

试问，采用该治疗方案的12名患者的术后生存率如何？（案例来自相关教科书，有删改）

如何来评判这种治疗方法的生存率呢？我们从“生存数据”入手，关于生存数据的详细解释大家可以看第一篇文章。

今天的文章我们来一步步搞懂上面这张表。

案例中介绍了，一共有12名住院患者，他们的生存时间（用 t 表示）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+，单位是月。第一个问题，有些数字有加号，有些没有，是为什么呢？

有加号的表示，该数据是“删失数据”，什么是删失数据？（以及什么是完全数据？）可以看第一篇文章。这里简单理解就是，患者失联了，后续的信息无法获取。

比如上面的生存时间数据中有一个“9+”，可以理解为，跟踪了9个月，患者一直存活且保持着联系，可是当下一次（比如第10个月开始）去找他的时候（专业名词叫“随访”），找不到了，说的不好听一点，是死是活不知道。

因此，对于这样的数据，我们就叫“删失数据”。由于患者确实可能还活着，只是失联，谨慎起见，我们就在上一次随访的数据“9”后面加一个“+”，表示他存活的时间可能长于9个月。

其他的删失数据也这样理解。搞懂删失后，我们再来看这个表。表格的第（1）列序号代表什么呢？排序的号码！

将上面12名患者的生存时间t 从小到大排序并编号。

——注意两点：

第一，完全数据和删失数据要用不同的编号，比如上面的“9”和“9+”一个是编号“4”，一个是编号“5”，完全数据列在删失数据前面；

第二，其他情况下，相同的生存时间编号相同，比如上面有两个“13”，所以都编为“7”。

编号完成后，就把相应的生存时间排进去，见上表第（2）列。

这里大家需要熟悉一些表达，比如t₁=2、t₂=5 ... 就是指随访的第一个时间点是2个月，随访的第二个时间点是第5个月。

接着往后看，第（3）列是“死亡例数”，就是指在这个时间段的死亡人数是多少？

比如在第一个时间段内（ t₁=2 ）有1名患者死亡，就表示为：d₁=1；

同理，在第二个时间段内也有1名死亡（注意是： t₁~ t₂，就是2月末到第5月末），表示为：d₂=1；

后续依次类推，这里需要注意的是，“死亡例数”记录的是某个特定的时间段内的死亡人数，不是累计的死亡人数。

表格中第（4）列称作“删失数据”，就是记录那些带“+”号的数据的，可以发现，上面每一个删失数据都单独做一例录入。

第（5）列“期初人数”就与上面“死亡例数”相对应，就是指这个观察期开始时的人数。

第一个数（ n₁）是“12”，就表示刚开始观察的人数是12人。

随着观察时间的延长，有患者死亡，就算作是一期。比如，到第2月末时，有1名患者死亡，那么下一个观察期的“期初人数”就是 12-1 = 11，因此： n₂=11，到第5月末时，又一名患者死亡，第3期（i = 3）“期初人数”就是 11-1 = 10，表示为： n₃=10。

后面的以此类推，由此我们可以得出一个计算公式：

后面两列——死亡概率和生存概率也很好理解，只有一点，就是要明白这里计算的概率都是以一期为单位的，而不是累积的。

比如第一期（ i=1），一名患者死亡，所以，死亡概率就是：1/12；对应的生存概率就是：1-1/12。

第二期（ i=2），也有一名患者死亡，死亡概率：1/11; 生存概率：1-1/11。

需要注意，这里的分母变成了11。原因还是：这里是以每一期为一个单位，计算时，都以该期的“期初人数”为分母。

搞清楚了死亡概率和生存概率，终于迎来了我们的主角“生存率”。

这个生存率怎么计算？很简单，就是各期生存概率的乘积。

后面的依次类推，就是这么简单。

我们来验算一下，比如：

用计算器算一下，这个也可以口算，你发现了么？

至于为什么这里都要加一个“ ^ ”以及上表中最后一列“生存率的标准误”怎么理解和计算，我们留到下一篇文章。

以上我们估算生存率的方法教科书称为：Kaplan-Meier法，又称乘积极限法，可以简单记为K-M法。

其基本思想是：将所有观察对象的生存时间（包括删失数据）由小到大依次排列，对每个时间点进行死亡概率、生存概率和生存率的估计。

回顾上面的文章，是否就是这个过程呢？

K-M法一般用于观察对象数目较少的没有进行特定分组的资料（如同本例）。这样可以能够充分利用每条记录的信息，估计不同生存时间点的生存率。

以上就是今天的内容。我们可以看到，实际应用中生存率的计算并不难，就是几个概率相乘。

学习起来真正的难点是一整套数据的记录和整理方法，而且还出现“删失”这种看起来就头大的术语。

所以，处理生存分析，首先要按照我们今天文章的梳理过程，一步一步弄懂每一个的指标的意义，生存率的估计就水到渠成了。

——热门课程推荐：

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析人工智能大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇都2020年了，数据分析的真相究竟是什么？

下一篇十分钟快速了解pandas的常用操作！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

生存曲线的估计方法（1）：先看懂这个表

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

生存曲线的估计方法（1）：先看懂这个表

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...