基础准备
两样本推断性统计基础:两样本估计和假设检验基础。
通过对比单样本估计和假设检验的学习,可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式,有以下总结:
两样本的t分布
t分布在单样本估计和假设检验要求:正态总体,可以使用t分布进行两样本估计和假设检验;两样本估计和假设检验要求:除了正态总体外,还要假设两总体方差相等(方差齐性)才能使用t分布,原因是两总体方差相等,才能得到自由度为n1+n2-2的均值差抽样分布的方差,推导公式如下:
参照上表,标准差已知的正态分布总体均值差抽样分布为正态分布,可以得到独立样本均值差的置信区间,置信区间公式推导过程如下:
范例1:一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度(总体1,标准差已知为30英尺),高度均值为320英尺;海拔3000英尺的73棵成树的高度(总体2,标准差已知为45英尺),高度均值为255英尺;问:两总体均值差的95%置信区间是多少?
解:不同海拔的红杉树的高度可以认为是正态分布的,总体方差已知,而且不同海拔的红杉树是独立样本,可以直接用上面置信区间公式计算,过程如下:
和单样本假设检验一样(单样本的假设检验),两样本假设检验问题也有一对统计假设:零假设和对立假设;同样也存在两侧和单侧假设检验,而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中,一般把零假设为两均值差为0,对立假设根据题意选择双侧假设或是单侧假设;两样本假设检验的步骤和单样本假设检验一样。
从上表可知:标准差已知的正态总体均值差的抽样分布为正态分布,进行标准正态变换后可以假设检验,过程见下方范例。
范例2:独立随机样本取自均值未知,标准差已知的两个正态分布总体,第一个总体,标准差为0.73,样本容量为25,样本均值为7.3;第二个总体,标准差为0.89,样本容量为20,样本均值为6.7;在显著水平为0.01下作两总体均值差等于0的右尾检验。
均值差的置信区间:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
如上表所示,标准差未知,但假定相等的正态分布总体小样本,均值差的抽样分布符合t分布,可用表中置信区间计算公式,计算过程见范例。
范例3:为研究睡眠对记忆力的影响,一位心理学家在两种条件下对人群进行试验,内容是有关北极野外生活的纪实电影的细节回忆,这两种条件是:(1)电影在早上7点反映,被测人晚上睡眠正常,第二天晚上给他们50个有关电影的多项选择题;(2)电影早7点反映,被测人白天情况如常,未睡觉,同一天晚上7点给他们50个问题,样本是独立的,每组为15人,结果为:第1组,均值为37.2个正确,方差为3.33;第2组,均值为35.6个正确,方差为3.24。假定两种条件下的总体都是正态分布,且方差相等,计算总体均值差95%的置信区间。
均值差的假设检验:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
同上(置信区间),该条件下的假设检验适用t分布。
范例4:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两个条件下的总体是正态分布,并且有同方差,在显著水平0.02下,用临界决策规则作零假设:两总体均值差为0的双侧检验。
均值差的置信区间:标准差未知的任何总体分布的独立大样本(大于等于30)
对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例5:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么?
均值差的假设检验:标准差未知的任何总体分布的独立大样本(大于等于30)
同上的解释:对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例6:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。在0.01显著水平下,用临界值决策规则作零假设:两条航线延误时间的差等于0的双侧检验。
均值差的置信区间:成对样本
对于成对样本,需要用到不同于上面描述的独立两样本的估计方法,而应该用成对样本模型,模型推导如下:
范例7:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由这些数据计算5mg组合15mg组的95%置信区间,假定差值的总体是正态分布。
均值差的假设检验:成对样本
同上,成对样本均值差的假设检验也用t分布。
范例8:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在显著水平0.05下,用临界值决策桂策做零假设:两总体均值差为0的右侧检验,假设差值总体是正态分布。
方差比
上一篇两样本估计和假设检验基础讲过,两样本均值估计和假设检验用均值差表示,而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布(F分布回顾:两样本估计和假设检验基础)。
方差比的置信区间:参数未知的正态分布总体的独立样本
范例9:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两种条件下的总体都是正态分布,计算量总体方差比的90%置信区间。
范例10:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两总体方差齐性,在0.01显著水平下,用临界值决策规则作这个假定的双侧检验。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14