登录
首页精彩阅读【从零开始学统计】8.样本好才是真的好!
【从零开始学统计】8.样本好才是真的好!
2014-07-04
收藏
之前做的几个系列都得到了大家的支持,也有很多童鞋指出了楼主写的纰漏,楼主很感谢大家(这样才能有进步嘛……)。
       那么这次楼主想说说抽样的问题。抽样这个话题,其实有那么点……一般作分析的都是处于数据处理或者处理的后期了,而抽样问题则是在设计样本抽样框时会遇到的,属于数据搜集的前期(甚至决定着数据的搜集)。做后期的,前期怎样其实后期的并不关心,但如何抽样却能决定样本的好坏,大致了解下总有好处(当然繁杂的诸如如何确定样本量之类的公式这里就不出现了)。

首先,暂从概念讲起:
       简单随机抽样也称单纯随机抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能被抽中样本概率相等的一种抽样方式。
       分层抽样又称分类抽样或类型抽样,它首先将总体的N个单位分成互不交叉、互不重复的k个部分,我们称之为层;然后在每个层内分别抽选n1、n2、... nk个样本。
  • 分层抽样的优点:分层抽样的优点是可以降低总的抽样误差,在全国性抽样调查设计中经常使用分层抽样方法。
        整群抽样是首先将总体中各单位归并成若干互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。
  • 整群抽样的优点:整群抽样的优点是实施方便、节省经费;缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。在全国性人口、社会抽样调查中,整群抽样是经常采用的方法。
       等距抽样也称系统抽样或机械抽样,它首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔。然后随机确定起点,每隔一定间隔抽取一个单位。等距抽样在全国性人口、社会抽样调查中经常采用。还有很多其他的抽样方法比如多阶段抽样,双重抽样,PPS抽样等……这里就不做赘述了。
       这些抽样方法往往我们会结合起来一起用,比如,我们要了解某市400个国营企业的生产经营情况,决定采取类型随机抽样法抽取20个企业作为样本进行调查。那么首先,将这400个企业按产业(也可按行政区划、盈利情况、规模大小等)分为三类,假定第一类产业40个,第二类产业200个,第三类产业160个。然后,按各类企业在总体中的比重,确定各类企业抽取样本单位的数量。其中,第一类产业的企业占总体10%,按比例应抽样本企业2个;按同样方法计算,第二类产业中应抽样本企业10个,第三类产业中应抽样本企业8个。最后,采用简单随机抽样或等距随机抽样方法,从各类企业中抽出上述数量的样本单位。那么这个小例子中就先分层然后再用简单或者系统抽样法。

☆提问时间到:
Q:整群抽样和分层抽样有什么区别?
A:这个问题在刚接触抽样,特别是当老师吧啦吧啦说了一大堆不同的抽样方法后,脑子会出现短时间的短路~~于是这个问题就冒出来了。我相信不是楼主一个人产生过这个疑问。简单点说吧,整群和分层都是把总体给划分开来,区别在于一个是对群的随机,一个是对层内的随机。一个总体可以分为N个群,然后在群内进行普查,于是整群抽样出现了;而根据差异将总体分层,然后在层内进行随机抽样即使分层抽样了(楼主表达上的不严谨欢迎大家即使拍砖指出)。最后一句话总结:先分群再普查=整群抽样;先区分在随机=分层抽样。两者在划分层或群的时候也有区别:分层希望层与层之间区别越大越好但层内则差异越小越好;整群则希望群与群之间差异越小越好,这样抽出的群才不会太偏。

Q:如何决定用哪种抽样方法??
A:由于三种抽样方法适应的范围不同,对于给定的抽样问题首先要选择相匹配的抽样方法.只有理解三种抽样方法的含义,才会做到这一点.看下面的几个例子:
    问题1:某市为了支援西部教育事业,现从报名的18名志愿者中选取6人组成志愿小组.为了保证对每个志愿者的公平性,如何确定志愿小组的名单.
    问题2:某学校有在编教师160人.其中老年教师16人,中年教师112人,青年教师32人.教育部门为了了解教师的健康状况,要从中抽取一个容量为20的样本.试确定用何种方法抽取.
    问题3:某工厂平均每天生产某种零件大约1000件,要求产品检验员每天抽取50件,检查其质量状况.试问运用那种抽样方法最合理.
    剖析:问题1的总体中的个体数目较少,运用简单随机抽样法抽样;简单随机抽样法有两种,分别为抽签法和随机数法,两法皆适合此题;问题2中的总体由差异明显的几部分组成,故采用分层抽样法抽样;问题3中的总体容量大,样本容量也大,可用系统抽样法抽样.

四种抽样方法的抽样误差大小一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样

360截图20140522214020856.jpg

那么接下去大家一定关心样本大小的确定,样本容量的大小取决于许多因素,其中主要有以下三方面:
  1. 研究对象总体的性质。总体的大小及其分布的离散程序是决定样本大小的首要条件。一般来说,总体越大,相应需要的样本容量越大。总体的离散程度越大,相应需要的样本容量也越大。
  2. 研究目标、方法和研究者的经费、经验、时间、精力等主客观条件。
  3. 研究结果的统计分析方法。一般情况下不小于30,这是根据样本分布的原理确定的。因素分析等多元统计方法,所需的样本容量一般为变量的10-20倍,最少不能少于5倍。若是为了检验误差和推论可能出现的错误的概率,需要用公式计算样本数目(具体的方法可参阅有关统计方面的书籍)当中涉及的情况过多,这里不作介绍。

tips:在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,往往总体的方差是未知的。在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来替代总体的方差。

       困惑的是:既然总体是要调查的,若这个总体本没有任何历史资料可供参考,小规模的调查本身就是一次抽样,那这小规模的抽样样本容量怎么确定?(这貌似进入死循环了……)有木有同志能给个解决办法啊?

数据分析咨询请扫描二维码

客服在线
立即咨询