使用R进行倾向得分匹配（PSM）-CDA数据分析师官网

热线电话：13121318867

使用R进行倾向得分匹配（PSM）

2017-02-26

使用R进行倾向得分匹配（PSM）

根据维基百科，倾向得分匹配（PSM）是一种用来评估处置效应的统计方法。广义说来，它将样本根据其特性分类，而不同类样本间的差异就可以看作处置效应的无偏估计。因此，PSM不仅仅是随机试验的一种替代方法，它也是流行病研究中进行样本比较的重要方法之一。让我们举个栗子：

与健康相关的生活质量（HRQOL）被认为是癌症治疗的重要结果之一。对癌症患者而言，最常用的HRQOL测度是通过欧洲癌症研究与治疗中心的调查问卷计算得出的。EORTC QLD-C30是一个由30个项目组成，包括5个功能量表，9个症状量表和一个全球生活质量量表的的问卷。所有量表都会给出一个0-100之间的得分。症状量表得分越高代表被调查人生活压力越大，其余两个量表得分越高代表生活质量越高。

然而，如果没有任何参照，直接对数据进行解释是很困难的。幸运的是，EORTC QLQ-C30问卷也在一些一般人群调查中使用，我们可以对比患者的得分和一般人群的得分差异，从而判断患者的负担症状和一些功能障碍是否能归因于癌症治疗。PSM在这里可以以年龄和性别等特征，将相似的患者和一般人群进行匹配。

生成两个随机数据框

由于我不希望在本文使用真实数据，我需要生成一些仿真数据。使用Wakefield包可以很容易地实现这个功能。

第一步，我们创建一个名为df.patients的数据框，我希望它包含250个病人的年龄和性别数据，所有病人的年龄都要在30-78岁之间，并且70%的病人被设定为男性。

set.seed(1234)
df.patients <- r_data_frame(n = 250,
                            age(x = 30:78,
                                name = 'Age'),
                            sex(x = c("Male", "Female"),
                                prob = c(0.70, 0.30),
                                name = "Sex"))
df.patients$Sample <- as.factor('Patients')

summary函数会返回创建的数据框的基本信息，如你所见，患者平均年龄为53.7岁，并且大约70%为男性。

summary(df.patients)
##       Age            Sex           Sample
## Min.   :30.00   Male :173   Patients:250
## 1st Qu.:42.00   Female: 77
## Median :54.00
## Mean   :53.71
## 3rd Qu.:66.00
## Max.   :78.00

第二步，我们需要创建另一个名为df.population的数据框。我希望这个数据集的数据和患者的有些不同，因此正常人群的年龄区间被设定为18-80岁，并且男女各占一半。

set.seed(1234)
df.population <- r_data_frame(n = 1000,
                              age(x = 18:80,
                                  name = 'Age'),
                              sex(x = c("Male", "Female"),
                                  prob = c(0.50, 0.50),
                                  name = "Sex"))
df.population$Sample <- as.factor('Population')

下方表格显示样本平均年龄为49.5岁，男女比例也大致相等。

summary(df.population)
##       Age            Sex             Sample
## Min.   :18.00   Male :485   Population:1000
## 1st Qu.:34.00   Female:515
## Median :50.00
## Mean   :49.46
## 3rd Qu.:65.00
## Max.   :80.00

合并数据框

在匹配样本之前，我们需要把两个数据框合并。先生成一个新变量Group来代表观测来自哪个全体（逻辑型变量），再添加另一个变量Distress来反应个体的痛苦程度。Distress变量是利用Wakefield包中的age函数创建的，可以发现，女性承受的痛苦级别更高。

mydata <- rbind(df.patients, df.population) mydata$Group <- as.logical(mydata$Sample == 'Patients') mydata$Distress <- ifelsmydata <- rbind(df.patients, df.population)
mydata$Group <- as.logical(mydata$Sample == 'Patients')
mydata$Distress <- ifelse(mydata$Sex == 'Male', age(nrow(mydata), x = 0:42, name = 'Distress'),
age(nrow(mydata), x = 15:42, name = 'Distress'))

当我们比较两类样本的年龄和性别分布时，我们可以发现明显的区别：

pacman::p_load(tableone)
table1 <- CreateTableOne(vars = c('Age', 'Sex', 'Distress'),
                         data = mydata,
                         factorVars = 'Sex',
                         strata = 'Sample')
table1 <- print(table1,
                printToggle = FALSE,
                noSpaces = TRUE)
kable(table1[,1:3],
      align = 'c',
      caption = 'Table 1: Comparison of unmatched samples')

更进一步，我们还发现一般人群的痛苦程度显著较高。

样本匹配

现在，我们已经完成了全部的准备工作，可以开始使用MatchIT包中的matchit函数来匹配两类样本了。函数中method=‘nearest’的设定指明了使用近邻法进行匹配。其他方法包括，次分类，优化匹配等。ratio=1意味着这是一一配对。同时也请注意Group变量需要是逻辑型变量。

set.seed(1234)
match.it <- matchit(Group ~ Age + Sex, data = mydata, method="nearest", ratio=1)
a <- summary(match.it)

为了后续工作的便利，我们将summary函数的输出赋值给名为a的变量。

在匹配万样本后，一般人群样本量所见到了和患者样本一致（250个观测）。

kable(a$nn, digits = 2, align = 'c',
caption = 'Table 2: Sample sizes')

根据输出结果，匹配后的年龄和性别分布基本一致了。

kable(a$sum.matched[c(1,2,4)], digits = 2, align = 'c',
caption = 'Table 3: Summary of balance for matched data')

倾向得分的分布可以使用MatchIt包中的plot函数进行绘制。

plot(match.it, type = 'jitter', interactive = FALSE)

输出如下：

保存匹配样本

最后，让我们把匹配好的样本保存在df.match数据框里。

df.match <- match.data(match.it)[1:ncol(mydata)]
rm(df.patients, df.population)

现在pacman::p_load(tableone)

table4 <- CreateTableOne(vars = c('Age', 'Sex', 'Distress'),
                         data = df.match,
                         factorVars = 'Sex',
                         strata = 'Sample')
table4 <- print(table4,
                printToggle = FALSE,
                noSpaces = TRUE)
kable(table4[,1:3],
      align = 'c',
      caption = 'Table 4: Comparison of matched samples')，我们可以对比两类人群间痛苦程度的差异是否依旧显著。

由于p值为0.222，学生t检验的结果不再显著。因此，PSM帮助我们避免犯下第一类错误。

P.S.1：本文只用的所有包可通过如下代码加载：数据分析师培训

pacman::p_load(knitr, wakefield, MatchIt, tableone, captioner)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R进行倾向得分匹配（PSM）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

使用R进行倾向得分匹配（PSM）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...