统计之 - 方差分析(ANOVA)_数据分析师
方差分析(Analysisof Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析是用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSw。组内自由度记为dfw,其概念稍后会说到。
实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSb。组间自由度记做dfb,其概念稍后会说到。
总偏差平方和SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw=n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。
方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
举例分析:
下面我们用一个简单的例子来说明方差分析的基本思想:
如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
问该地克山病患者与健康人的血磷值是否不同?从以上资料可以看出,24个个体中患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:
组内变异,即该24个个体来自同一总体,但由于随机误差的原因使得各组内部的血磷值各不相等;
组间变异,即该24个个体来自两个不同的总体-即健康人跟患者的血磷脂从本质上是有差别的,它们是两个不同的总体。
而且:SS总=SS组间+SS组内 v总=v组间+v组内
如果用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间均方去除组内均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
利用统计软件分析结果如下:
data a;
input type num@@;
cards;
1 0.84 1 1.05 11.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11
2 0.54 2 0.64 20.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87
;
run;
proc anova;
class type;
model num=type;
means type;
run;
方差分析主要用途:①均数差别的显著性检验,②分离各有关因素并估计其对总变异的作用,③分析因素间的交互作用,④方差齐性检验。
在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异。例如医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同化学药剂对作物害虫的杀虫效果等,都可以使用方差分析方法去解决。
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。
经过方差分析若拒绝了检验假设,只能说明多个样本总体均值不相等或不全相等。若要得到各组均值间更详细的信息,应在方差分析的基础上进行多个样本均值的两两比较。
多个样本均值间两两比较
多个样本均值间两两比较常用q检验的方法,即Newman-keuls法,其基本步骤为:建立检验假设-->样本均值排序-->计算q值-->查q界值表判断结果。
多个实验组与一个对照组均值间两两比较
多个实验组与一个对照组均值间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03