
数据分析技术:事后多重比较的方法介绍;了解各种方法的原理才能做到“准确分析”
基础准备
均值比较的假设检验是数据分析最重要的分析内容之一,根据参与比较的样本数量不同,使用的假设检验方法也不同,做个简要的总结:
一个总体均值与一个常数进行比较(Z检验和T检验);
两个总体均值之间的比较(Z检验和T检验);
三个及三个以上总体均值的比较(方差分析);
与Z检验和T检验不同,方差分析的结果只能检验出三个以上的总体均值是完全相同呢?还是不完全相同?注意是不完全相同,至于是哪个或哪些总体均值与其它总体均值不同则是不能获知的。因此方差分析结束以后还需要做事后多重检验,分析出到底是哪个或哪些总体均值与众不同。
今天我们要介绍的是进行事后多重检验的方法介绍。如果对方差分析还不太熟悉的朋友可以点击下面的链接回顾:
数据分析技术:方差分析原理;
数据分析理论:方差分析模型;
很多朋友会有疑问,为什么方差分析一定要进行事后多重比较呢?直接用独立样本T检验进行多次两两比较不是也可以吗?我们可以用一个例子说明这个原因:以方差分析为例,假如有5个样本,如果要进行多次均值的两两比较,那么两两比较的次数多达10次。设每次比较的显著性水平等于0.05,那么10次比较都不犯“弃真”错误的概率为(1-0.05)的十次方,也就是0.60左右,也就是说犯“弃真”错误的概率高达0.40,这远远大于原先设定的显著性水平0.05。不仅如此,随着比较组数的增多,犯“弃真”错误的概率也会越来越大。
应用SPSS进行方差分析时,给分析者提供了很多事后多重检验的方法,如下图所示。这些方法根据多个总体方差是否相等分成了两大类。
事后多重检验的方法很多,但并不是说它们如百花齐放般的衬托了统计学的欣欣向荣,而是说明到目前为止仍然没有统一的解决方法,因此才根据不同的目的和数据情况创造出了很多不同的方法。
两两比较的方法
LSD法:最小显著性差异法(Least Significance Difference),是最简单的比较方法之一。它是t检验的一个简单变形,并未对检验水准做出任何校正,只是在标准误(注意不是标准差)的计算上充分考虑了所有总体水平的样本信息,估计出了一个更为稳健的标准误。因为单次比较的显著性水平a保持不变,所以LSD法是最灵敏的事后多重比较法。
Sidak法:Sidak校正在LSD法上的应用。通过Sidak校正降低每次两两比较的“弃真”错误概率,以使最终整个比较的“弃真”错误概率保持为显著性水平a。这也就是说每次比较的显著性水平a会随着比较次数的增多而减小。显然,Sidak法比LSD法的灵敏度低。每次进行Sidak比较的显著性水平为:
Bonferroni法:与Sidak法类似,它的每一次比较实际上是Bonferroni校正在LSD法上的应用。Bonferroni法修正后每次比较的显著性水平比Sidak法的更小,也就是说Bonferroni法比Sidak法的灵敏度更低。
Scheffe法:Scheffe法的实质是对多个总体均值间的线性组合是否为0进行假设检验。多用在两组样本含量不同的情况。
Dunnett法:常用于多个试验组与一个对照组间的比较。因此在指定Dunnett法时,还应当指定对照组。
以上五种方法的排列顺序是按照灵敏度从高到低排列的,LSD法>Sidak法>Bonferroni法>Scheffe法>Dunnett法。
形成同质亚组的方法
SNK法:全称为Student-Newman-Keuls法。它实质上是根据预先指定的准则将各组均值分为多个亚组,利用Studentized Range分布来进行假设检验,并根据所要检验的均值个数调整总的“弃真”错误概率不超过设定的显著性水平a。
Tukey法:全称为Tukey' s Honestly Significant Difference法。应用这种方法要求各组样本含量相同。它也是利用Studentized Range分布来进行各组均数间的比较,与SNK法不同地是,它控制所有比较中最大的“弃真”错误概率不超过设定的显著性水平a。
Duncan法:其思路与SNK法相类似,只不过检验统计量服从的是Duncan' s Multiple Range分布。
以上8种是常用的事后多重检验方法(各水平样本的方差齐性),剩下的六种方法并不常用,这里就不在介绍。除此之外,在各组样本方差不齐时,SPSS还提供了4种事后多重检验的方法,但从方法的接受程度和结果的稳健性讲,希望大家尽量不要在方差不齐时进行方差分析甚至两两比较,采用变量变换或者非参数检验往往更可靠。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28