热线电话：13121318867

【CDA干货】Cox 模型时间依赖性检验：原理、方法与实战应用

2025-09-26

Cox 模型时间依赖性检验：原理、方法与实战应用

在生存分析领域，Cox 比例风险模型（Cox Proportional Hazards Model）是分析 “时间 - 事件” 数据（如患者生存时间、设备故障时间）的核心工具。其核心假设 ——比例风险假设（Proportional Hazards Assumption, PH 假设） ，直接决定模型结果的可靠性：若该假设成立，不同协变量水平的 “风险比（HR）” 不随时间变化，模型解读简单且有效；若假设不成立（即存在 “时间依赖性”），则常规 Cox 模型的风险估计会出现偏差，甚至得出错误结论。因此，“时间依赖性检验” 本质是验证 PH 假设是否满足的关键步骤，是 Cox 模型建模前不可忽视的核心环节。本文将从 PH 假设的内涵切入，系统拆解时间依赖性检验的原理、常用方法与实战流程，结合案例说明如何识别、处理时间依赖性，确保 Cox 模型结果的科学性与实用性。

一、基础认知：Cox 模型的 PH 假设与时间依赖性的本质

要理解时间依赖性检验，需先明确 PH 假设的核心逻辑 —— 这是判断 “是否存在时间依赖性” 的前提，也是检验方法设计的底层依据。

1. 比例风险假设（PH 假设）的核心内涵

Cox 模型的风险函数可表示为：

其中：

：具有协变量向量的个体在时间的瞬时风险率；
：基准风险率（协变量均为 0 时的风险率，仅与时间相关，与个体特征无关）；
：风险比因子（仅与协变量和回归系数相关，与时间无关）。

PH 假设的核心是：不同个体的风险比（HR）不随时间变化。即对任意两个个体（协变量分别为和），其风险比满足：

该比值恒定，与时间无关。例如，在肿瘤患者生存分析中，“性别”（协变量）的风险比若为 0.6（女性 vs 男性），则在治疗后 1 个月、6 个月、12 个月，女性的死亡风险始终是男性的 60%，这就是 PH 假设成立的典型表现。

2. 时间依赖性的本质：PH 假设不满足的场景

当风险比随时间变化时，即与相关，此时称协变量存在 “时间依赖性”，PH 假设不成立。常见场景包括：

协变量与时间的交互作用：如 “治疗方案” 的效果随时间变化 ——A 方案在治疗初期（3 个月内）风险比为 0.5（优于 B 方案），但 3 个月后风险比升至 1.2（劣于 B 方案），此时 “治疗方案” 与 “时间” 存在交互作用，具有时间依赖性；
协变量本身随时间变化：如 “血压”“体重” 等动态指标，若在随访过程中发生变化，常规 Cox 模型（假设协变量固定不变）无法捕捉这种动态性，间接表现为时间依赖性；
基准风险率与协变量的关联随时间改变：如老年患者的 “合并症数量” 对死亡风险的影响，在随访 1 年内风险比为 1.8，1 年后风险比升至 2.5，说明合并症的风险效应随时间增强，存在时间依赖性。

时间依赖性的危害显著：若忽视该问题继续使用常规 Cox 模型，会导致风险比估计偏差（如低估或高估协变量的真实效应），进而影响临床决策（如错误推荐治疗方案）或设备可靠性评估（如误判故障风险）。

二、时间依赖性检验的常用方法：从图形验证到统计检验

时间依赖性检验方法可分为 “图形法”（直观定性）和 “统计检验法”（量化验证）两类，实际应用中需结合使用，以确保结论可靠。

1. 图形法：直观判断 PH 假设是否成立

图形法通过可视化方式观察 “风险比随时间的变化趋势”，操作简单、易于理解，适合初步筛选存在时间依赖性的协变量。

（1）分组 Kaplan-Meier（K-M）曲线法

原理：将连续协变量（如年龄）按中位数 / 三分位数分组（如 “年轻组”<60 岁、“老年组”≥60 岁），或直接对分类协变量（如性别），绘制各组的 K-M 生存曲线。若 PH 假设成立，各组曲线应 “平行分离”，无明显交叉或汇聚趋势；若曲线交叉、汇聚或斜率差异随时间变化，则提示存在时间依赖性。

操作步骤：

选择目标协变量（如 “治疗方案”：A 方案、B 方案）；
按协变量水平分组，绘制各组 K-M 生存曲线；
观察曲线趋势：若曲线在整个随访期内平行（斜率比值恒定），则 PH 假设成立；若曲线初期分离、后期交叉（如 A 方案初期生存优势明显，后期被 B 方案反超），则存在时间依赖性。

案例：某肿瘤治疗研究中，A 方案与 B 方案的 K-M 曲线如图 1 所示：

随访前 3 个月：A 方案曲线在 B 方案上方（A 方案生存优势显著）；
3 个月后：A 方案曲线与 B 方案交叉，且逐渐低于 B 方案（A 方案生存劣势显现）；
结论：“治疗方案” 存在时间依赖性，PH 假设不成立。

优缺点：

优点：直观易懂，无需复杂计算；
缺点：仅适用于单协变量检验，无法同时考虑多个协变量的影响；连续协变量分组方式可能影响结果（如不同分组阈值导致曲线趋势变化）。

（2）对数累积风险（-log (-log (S (t)))）曲线法

原理：对 K-M 生存曲线的生存函数做 “双对数变换”，即，绘制各组的变换后曲线。若 PH 假设成立，各组曲线应呈 “平行直线”（斜率相同）；若曲线不平行（如斜率随时间变化或交叉），则提示时间依赖性。

数学依据：若 PH 假设成立，生存函数满足，两边取双对数变换得：

该式表明，不同协变量水平的曲线，仅相差一个常数项，因此应平行。

操作步骤：

按协变量分组，计算各组的生存函数；
对做双对数变换，绘制随时间的曲线；
观察曲线平行性：若各组曲线平行（纵向距离恒定），则 PH 假设成立；若曲线发散或交叉，则存在时间依赖性。

案例：某高血压患者心血管事件风险研究中，“血压控制水平”（达标组、未达标组）的对数累积风险曲线如图 2 所示：

随访 1 年内：两组曲线平行，纵向距离恒定；
1 年后：未达标组曲线斜率增大，与达标组曲线发散（未达标组风险增速加快）；
结论：“血压控制水平” 在 1 年后出现时间依赖性，PH 假设不完全成立。

优缺点：

优点：比 K-M 曲线更灵敏，能放大微小的非平行趋势；
缺点：对生存函数的极端值（如随访后期少量个体）敏感，曲线可能波动较大。

2. 统计检验法：量化验证时间依赖性

图形法存在主观性，需结合统计检验法进行量化验证 —— 通过构建检验统计量，判断 “协变量与时间的关联是否显著”，进而确定是否存在时间依赖性。最常用的方法是Schoenfeld 残差检验。

（1）Schoenfeld 残差检验（核心方法）

原理：Schoenfeld 残差是 Cox 模型拟合后生成的一种残差，反映 “实际风险事件发生与模型预测风险的偏差”。若 PH 假设成立，Schoenfeld 残差与时间应无相关性（残差在时间轴上随机分布）；若存在相关性（如残差随时间递增或递减），则提示协变量存在时间依赖性。

操作步骤（以 R 语言survival包为例）：

拟合常规 Cox 模型，提取 Schoenfeld 残差；

library(survival)

# 构建生存数据（time：生存时间，status：事件状态（1=事件发生，0=截尾），treat：治疗方案，age：年龄）

surv_data <- Surv(time, status) ~ treat + age

# 拟合Cox模型

cox_model <- coxph(surv_data, data = mydata)

# 提取Schoenfeld残差

schoen_res <- cox.zph(cox_model, transform = "identity")  # transform="identity"表示用原始时间

分析残差与时间的相关性：

可视化：plot(schoen_res, var = "treat")，绘制 Schoenfeld 残差随时间的散点图及拟合曲线。若拟合曲线接近水平（无趋势），则 PH 假设成立；若曲线有明显斜率（如递增），则存在时间依赖性；
定量检验：summary(schoen_res)，输出检验统计量（如 Score 统计量）及 p 值。若 p 值 <0.05，拒绝 “无时间依赖性” 的原假设，认为协变量存在显著时间依赖性。

案例：某设备故障分析中，对 “维护频率”（协变量）的 Schoenfeld 残差检验结果如下：

残差散点图：拟合曲线呈明显递增趋势（残差随时间增大）；
检验结果：Score 统计量 = 7.82，p 值 = 0.005（<0.05）；
结论：“维护频率” 存在显著时间依赖性，PH 假设不成立。

优缺点：

优点：可同时检验多个协变量，结果量化、客观性强；是目前公认的时间依赖性检验金标准；
缺点：对截尾数据较多的情况，检验效能可能下降；需拟合完整 Cox 模型后才能进行。

（2）时间交互项检验

原理：通过在 Cox 模型中引入 “协变量 × 时间” 的交互项，检验该交互项的回归系数是否显著。若交互项显著（p<0.05），说明协变量的风险效应随时间变化，存在时间依赖性；反之则 PH 假设成立。

操作步骤（以 Pythonlifelines库为例）：

构建含时间交互项的 Cox 模型：

from lifelines import CoxPHFitter

import pandas as pd

# 准备数据：添加时间变量t（随访时间），构建交互项treat_t = treat * t

mydata['t'] = mydata['time']  # 随访时间

mydata['treat_t'] = mydata['treat'] * mydata['t']  # 治疗方案×时间交互项

# 拟合含交互项的Cox模型

cph = CoxPHFitter()

cph.fit(mydata, duration_col='time', event_col='status', formula='treat + age + treat_t')

cph.summary  # 查看结果

解读交互项系数：

若treat_t的 p 值 <0.05，且系数为正：说明 “治疗方案” 的风险效应随时间增强；
若treat_t的 p 值 <0.05，且系数为负：说明 “治疗方案” 的风险效应随时间减弱；
若treat_t的 p 值≥0.05：说明 “治疗方案” 无时间依赖性，PH 假设成立。

案例：某糖尿病并发症研究中，“血糖控制水平（glu）” 与时间的交互项检验结果：

交互项glu_t的系数 = 0.03，p 值 = 0.02（<0.05）；
解读：血糖控制不佳的患者，其并发症风险随时间递增（每增加 1 年随访时间，风险比增加倍）；
结论：“血糖控制水平” 存在时间依赖性。

优缺点：

优点：可直接量化时间依赖性的方向（增强或减弱），且能结合多协变量分析；
缺点：需预先假设交互项形式（如线性交互X×t，若实际为非线性交互则可能漏检）。

三、实战流程：从检验到处理时间依赖性

时间依赖性检验的最终目的是 “确保 Cox 模型结果可靠”，因此需形成 “检验→识别→处理” 的完整流程。以下以 “肿瘤患者生存分析” 为例，演示实战步骤。

1. 步骤 1：数据准备与常规 Cox 模型拟合

数据说明：数据集包含 500 例肿瘤患者的随访数据，变量包括：

生存时间（time，单位：月）；
事件状态（status，1 = 死亡，0 = 截尾）；
协变量：治疗方案（treat，0 = 化疗，1 = 靶向治疗）、年龄（age，连续变量）、肿瘤分期（stage，1=Ⅰ/Ⅱ 期，2=Ⅲ/Ⅳ 期）。

拟合常规 Cox 模型（R 语言）：

library(survival)

# 构建生存对象

surv_obj <- Surv(time, status)

# 拟合模型

cox_base <- coxph(surv_obj ~ treat + age + stage, data = tumor_data)

summary(cox_base)

# 初步结果：treat的HR=0.62（p=0.03），提示靶向治疗优于化疗

2. 步骤 2：时间依赖性检验

（1）图形法初筛

绘制 “治疗方案” 的 K-M 曲线：发现曲线在随访 6 个月后交叉（靶向治疗初期优势，后期劣势）；
绘制对数累积风险曲线：两组曲线不平行，进一步提示时间依赖性。

（2）Schoenfeld 残差检验

# 提取Schoenfeld残差并检验

schoen_result <- cox.zph(cox_base)

summary(schoen_result)

# 结果：treat的p值=0.01（<0.05），age的p值=0.35，stage的p值=0.12；

# 识别：仅“治疗方案（treat）”存在显著时间依赖性。

3. 步骤 3：处理时间依赖性

针对存在时间依赖性的协变量，常用处理方法包括 “分层 Cox 模型”“时变协变量模型” 和 “分段 Cox 模型”，需根据时间依赖性类型选择。

（1）分段 Cox 模型（适用于风险效应在某时间点突变）

原理：将随访期分为多个区间（如 “0-6 个月”“6 个月以上”），在每个区间内拟合独立的 Cox 模型，允许协变量的风险比在不同区间内变化。

操作步骤：

确定分段时间点（根据图形法观察的曲线交叉点，如 6 个月）；
构建分段变量与交互项：

# 定义分段时间点

tumor_data$time_cut <- ifelse(tumor_data$time <= 6, 0, 1)  # 0=0-6月，1=6月以上

tumor_data$treat_time <- tumor_data$treat * tumor_data$time_cut  # 治疗方案×分段交互项

# 拟合分段Cox模型

cox_strat <- coxph(surv_obj ~ treat + age + stage + treat_time, data = tumor_data)

summary(cox_strat)

结果解读：

0-6 个月：treat 的 HR=0.45（p=0.01），靶向治疗风险降低 55%；
6 个月以上：treat 的 HR=1.32（p=0.04），靶向治疗风险增加 32%；
结论：靶向治疗的效果具有时间依赖性，仅在治疗初期有效。

（2）时变协变量模型（适用于协变量效应随时间连续变化）

原理：将协变量定义为 “随时间变化的函数”（如treat(t) = treat × I(t > 6)，其中I(·)为指示函数），通过survival包的tmerge函数构建时变数据集，再拟合 Cox 模型。

操作步骤：

构建时变数据集：

# 1. 创建时间断点（6个月）

breaks <- c(0, 6, max(tumor_data$time))

# 2. 构建时变变量

tumor_tv <- tmerge(tumor_data, tumor_data, id = id,

                 treat_tv = event(time <= 6, treat, 1 - treat))  # 6个月后treat_tv反转

# 3. 拟合时变协变量模型

cox_tv <- coxph(Surv(tstart, tstop, status) ~ treat_tv + age + stage, data = tumor_tv)

summary(cox_tv)

结果解读：

treat_tv 的 HR=0.51（p=0.008）（0-6 个月），HR=1.28（p=0.03）（6 个月后）；
与分段模型结论一致，进一步验证时间依赖性。

4. 步骤 4：模型验证与结果报告

验证处理后的模型：对分段 Cox 模型进行 Schoenfeld 残差检验，treat 的 p 值 = 0.42（≥0.05），PH 假设成立；
报告要点：需明确说明 “治疗方案存在时间依赖性，采用分段 Cox 模型处理”，并分别报告不同时间段的风险比（而非单一 HR 值），避免误导读者。

四、常见误区与注意事项

1. 误区 1：忽视截尾数据对检验的影响

错误表现：直接对含大量截尾数据（如截尾率 > 30%）的数据集进行检验，导致结果偏倚；
原因：截尾数据会减少事件发生的有效样本量，降低检验效能（尤其是 Schoenfeld 残差检验）；
避坑方法：检验前评估截尾分布，若截尾集中在随访后期，可采用 “限制随访时间”（如仅分析前 12 个月数据）或使用 “加权 Schoenfeld 残差检验”（调整截尾影响）。

2. 误区 2：过度依赖单一检验方法

错误表现：仅用图形法（如 K-M 曲线）判断 PH 假设成立，忽视统计检验的量化结果；
反例：某协变量的 K-M 曲线看似平行，但 Schoenfeld 残差检验 p=0.04（<0.05），实际存在轻微时间依赖性；
避坑方法：必须结合图形法与统计检验法，若结果矛盾，需检查数据（如异常值、分组方式）或增加样本量验证。

3. 误区 3：处理方法选择不当

错误表现：对 “非线性时间依赖性” 使用线性交互项模型，导致处理效果不佳；
示例：某协变量的风险效应随时间呈 “先增后减” 的非线性变化，若用线性交互项X×t，无法捕捉该趋势；
避坑方法：先通过 “平滑 Schoenfeld 残差图”（如plot(cox.zph(model), transform = "km")）观察时间依赖性的形态，非线性趋势可采用 “限制性立方样条（RCS）” 构建交互项（如X×rcs(t, 3)）。