【CDA干货】《stats.ttest\_rel 与 Wilcoxon 对比决策手册》-CDA数据分析师官网

热线电话：13121318867

首页大数据时代【CDA干货】《stats.ttest\_rel 与 Wilcoxon 对比决策手册》

【CDA干货】《stats.ttest\_rel 与 Wilcoxon 对比决策手册》

2025-11-03

这个问题精准切中了配对样本统计检验的核心差异点，理解二者区别是避免统计方法误用的关键。核心结论是：stats.ttest_rel（配对 t 检验）是参数检验，依赖数据正态分布假设，适用于满足正态性的连续型配对数据；wilcoxon（配对符号秩检验）是非参数检验，无需分布假设，适用于非正态、小样本或有序分类的配对数据，二者的选择核心在于数据是否满足参数检验的前提条件。

# 配对样本检验：stats.ttest_rel 与 Wilcoxon 的核心区别与选择逻辑

在数据分析中，“配对样本比较” 是高频需求 —— 例如 “同一组患者用药前后的疗效对比”“同一产品两种工艺的质量差异”“同一用户两次测试的分数变化”。Python 的scipy.stats库提供了两种核心检验方法：stats.ttest_rel（配对 t 检验）与wilcoxon（配对符号秩检验）。

二者虽均用于配对数据的差异检验，但适用场景、假设条件、检验逻辑截然不同。本文将从 “假设条件、检验逻辑、适用场景、结果解读” 四大维度拆解差异，结合实战案例给出选择指南，帮助开发者精准匹配检验方法。

一、核心定义：参数检验与非参数检验的本质分野

要理解二者区别，首先需明确 “参数检验” 与 “非参数检验” 的核心差异 —— 这是二者所有区别的根源。

1. stats.ttest_rel：参数检验的代表

检验类型：配对样本 t 检验（Paired t-test），属于参数检验；
核心思想：假设配对数据的差值服从正态分布，通过检验 “差值的总体均值是否为 0”，判断两组配对数据是否存在显著差异；
依赖前提：需满足明确的参数假设（数据分布、数据类型等），检验效率高，但假设不满足时结果会失真。

2. Wilcoxon：非参数检验的代表

检验类型：配对符号秩检验（Wilcoxon Signed-Rank Test），属于非参数检验；
核心思想：无需假设数据分布，通过对配对数据的差值进行 “符号（正负）” 和 “秩次（相对大小）” 分析，判断两组配对数据的中位数是否存在显著差异；
依赖前提：对数据分布无要求，稳健性强，但对数据信息的利用不如参数检验充分，检验效率略低。

二、四大核心区别：从假设到应用的全面对比

1. 适用条件：数据特征决定方法选择

这是二者最关键的区别，直接决定哪种方法适用于当前数据。

对比维度	stats.ttest_rel（配对 t 检验）	Wilcoxon（配对符号秩检验）
数据分布假设	严格要求：配对数据的差值服从正态分布（核心前提）	无分布假设：对差值分布无要求，适用于任意分布数据
数据类型	仅适用于连续型数据（如身高、体重、分数、浓度）	适用于连续型数据或有序分类数据（如满意度等级 1-5 星）
样本量要求	样本量较大时（n≥30），正态性要求可适当放宽；小样本（n<30）需严格满足正态性	样本量无限制，尤其适合小样本数据（n<30），对极端值稳健
差值要求	关注差值的均值是否为 0	关注差值的中位数是否为 0，对极端值不敏感

关键提醒：

若用stats.ttest_rel但数据不满足正态性，会导致 “假阳性” 或 “假阴性” 结果（例如明明有差异却判断无差异）；
若数据满足正态性，stats.ttest_rel的检验效率（识别真实差异的能力）高于 Wilcoxon，应优先选择。

2. 检验逻辑：均值 vs 秩次的不同聚焦

二者的检验逻辑从根本上不同，反映了对 “差异” 的不同定义。

（1）stats.ttest_rel：基于差值均值的参数检验

核心逻辑：

计算每对数据的差值（d_i = x_i - y_i，x、y 为配对数据）；
假设 “H0：差值的总体均值 μ_d = 0”（即两组数据无差异）；
计算 t 统计量：t = (样本差值均值 - 0) / (差值标准误)，t 值绝对值越大，越可能拒绝 H0；
根据 t 统计量和自由度（df = n-1，n 为配对样本数），计算 p 值，判断是否显著。

示例：某药物临床试验，10 名患者用药前后的血压差值服从正态分布，用stats.ttest_rel检验 “用药后血压是否显著下降”—— 本质是检验 “血压差值的均值是否小于 0”。

（2）Wilcoxon：基于差值秩次的非参数检验

核心逻辑：

计算每对数据的差值，剔除差值为 0 的样本（无变化数据不参与检验）；
对非零差值的绝对值进行排序，赋予秩次（即相对大小顺序）；
将差值的 “符号”（正 / 负）与秩次结合，计算 “正秩和” 与 “负秩和”；
假设 “H0：正秩和与负秩和大致相等”（即两组数据无差异），若某一组秩和显著更大，则拒绝 H0；

示例：10 名用户使用两款 APP 的满意度评分（1-5 星，有序数据），差值不服从正态分布，用 Wilcoxon 检验 “两款 APP 满意度是否有差异”—— 本质是检验 “正秩和与负秩和是否存在显著差异”。

3. 结果解读：统计量与 p 值的不同含义

二者的输出结果形式相似（均含统计量和 p 值），但统计量的物理意义截然不同。

（1）stats.ttest_rel 的结果解读

from scipy import stats

# 配对数据：用药前血压 vs 用药后血压

before = [140, 138, 155, 145, 135, 150, 142, 139, 148, 144]

after = [130, 132, 140, 138, 130, 140, 135, 133, 140, 136]

# 配对t检验

t_stat, p_value = stats.ttest_rel(before, after, alternative='greater')

print(f"t统计量：{t_stat:.4f}，p值：{p_value:.4f}")

# 输出：t统计量：8.9762，p值：0.00002（alternative='greater'表示检验before>after）

t 统计量：反映 “样本差值均值与 0 的偏离程度”，本例 t=8.9762，说明用药前血压显著高于用药后；
p 值：本例 p<0.05，拒绝 H0，可认为 “用药后血压显著下降”；
alternative 参数：指定检验方向（‘two-sided’双侧检验，‘greater’/‘less’单侧检验）。

（2）Wilcoxon 的结果解读

# 配对数据：APP1满意度 vs APP2满意度（1-5星）

app1 = [4, 3, 5, 2, 4, 3, 5, 2, 3, 4]

app2 = [3, 2, 4, 3, 3, 2, 4, 1, 2, 3]

# 配对Wilcoxon检验

w_stat, p_value = stats.wilcoxon(app1, app2, alternative='greater')

print(f"W统计量：{w_stat:.4f}，p值：{p_value:.4f}")

# 输出：W统计量：54.0000，p值：0.0234（alternative='greater'表示检验app1>app2）

W 统计量：默认输出 “正秩和”（可通过correction=False关闭连续性校正），本例 W=54，说明 APP1 的满意度秩和显著大于 APP2；
p 值：本例 p<0.05，拒绝 H0，可认为 “APP1 的满意度显著高于 APP2”；
注意：Wilcoxon 检验的核心是 “秩次差异”，而非具体数值差异，即使满意度差值的均值相同，秩次不同也可能得出显著结果。

4. 优势与局限：不同场景下的性能对比

方法	核心优势	主要局限
stats.ttest_rel	检验效率高（充分利用数据数值信息）；结果易解释（均值差异）；适用于大样本正态数据	对分布假设敏感（非正态数据结果失真）；仅支持连续数据；对极端值敏感
Wilcoxon	稳健性强（无分布假设）；支持有序分类数据；对极端值不敏感；适用于小样本	检验效率低于参数检验（仅利用秩次信息）；结果解释较抽象（秩和差异）；样本量极小时功效不足

三、实战案例：如何选择合适的检验方法？

选择逻辑可总结为 “先检验正态性，再根据数据特征决策”，以下为两步决策流程及案例演示。

步骤 1：检验配对数据差值的正态性

这是选择stats.ttest_rel的前提，用shapiro正态性检验或 Q-Q 图判断：

# 计算配对数据的差值

differences = np.array(before) - np.array(after)

# Shapiro-Wilk正态性检验（H0：数据服从正态分布）

shapiro_stat, shapiro_p = stats.shapiro(differences)

print(f"正态性检验：统计量={shapiro_stat:.4f}，p值={shapiro_p:.4f}")

# 输出：统计量=0.9357，p值=0.5842（p>0.05，接受H0，差值服从正态分布）

若 p>0.05：差值服从正态分布，优先用stats.ttest_rel；
若 p≤0.05：差值不服从正态分布，用 Wilcoxon 检验。

案例 1：符合正态分布→stats.ttest_rel

场景：验证某训练课程对学生成绩的提升效果（配对数据：培训前 vs 培训后成绩，差值正态分布）。

# 数据：培训前成绩（pre）、培训后成绩（post）

pre = [75, 82, 78, 85, 70, 88, 72, 80, 76, 83]

post = [82, 88, 85, 90, 78, 92, 80, 86, 83, 89]

# 正态性检验

diff = np.array(post) - np.array(pre)

print("正态性检验p值：", stats.shapiro(diff)[1])  # 输出≈0.65>0.05，正态分布

# 配对t检验（检验post>pre）

t_stat, p_value = stats.ttest_rel(post, pre, alternative='greater')

print(f"配对t检验：t={t_stat:.4f}，p={p_value:.4f}")  # 输出：t=10.23，p<0.001

# 结论：培训后成绩显著提升

案例 2：不符合正态分布→Wilcoxon

场景：比较两种包装的产品口感评分（配对数据：包装 A vs 包装 B，评分 1-5 星，差值非正态）。

# 数据：包装A评分（A）、包装B评分（B）

A = [3, 4, 2, 5, 3, 4, 2, 3, 4, 2]

B = [2, 3, 1, 4, 2, 3, 1, 2, 3, 1]

# 正态性检验

diff = np.array(A) - np.array(B)

print("正态性检验p值：", stats.shapiro(diff)[1])  # 输出≈0.03<0.05，非正态分布

# Wilcoxon检验（检验A>B）

w_stat, p_value = stats.wilcoxon(A, B, alternative='greater')

print(f"Wilcoxon检验：W={w_stat:.4f}，p={p_value:.4f}")  # 输出：W=55，p=0.0195

# 结论：包装A的口感评分显著高于包装B

四、常见误区：避免两种方法的误用

误区 1：忽视正态性假设，盲目使用配对 t 检验

错误做法：对非正态的配对数据（如有序分类数据、含极端值数据）直接用stats.ttest_rel；
后果：检验结果不可靠，可能得出错误的 “显著差异” 或 “无差异” 结论；
正确做法：先做正态性检验，非正态数据改用 Wilcoxon 检验。

误区 2：认为 Wilcoxon 是 “次优选择”，仅在非正态时使用

错误逻辑：觉得 Wilcoxon 效率低，即使数据非正态也强行转化为正态后用 t 检验；
后果：数据转化可能扭曲原始信息，且转化后的正态性未必满足；
正确逻辑：Wilcoxon 是 “稳健选择”，在非正态、小样本、有序数据场景下，是更合适的方法。

误区 3：混淆 “双侧检验” 与 “单侧检验”

错误做法：明明关心 “是否存在差异”（双侧），却用alternative='greater'（单侧）；
后果：p 值计算错误，可能遗漏真实差异；
正确做法：根据研究假设选择：
- 双侧检验（默认）：检验 “两组数据是否存在差异”（无方向）；
- 单侧检验：检验 “一组数据是否显著大于 / 小于另一组”（有明确方向）。