所谓的Bootstrapping法就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。
统计学中,bootstrapping可以指依赖于重置随机抽样的一切试验。bootstrapping可以用于计算样本估计的准确性。对于一个采样,我们只能计算出某个统计量(例如均值)的一个取值,无法知道均值统计量的分布情况。但是通过自助法(自举法)我们可以模拟出均值统计量的近似分布。有了分布很多事情就可以做了(比如说有你推出的结果来进而推测实际总体的情况)。
bootstrapping方法的实现很简单,假设抽取的样本大小为n:
在原样本中有放回的抽样,抽取n次。每抽一次形成一个新的样本,重复操作,形成很多新样本,通过这些样本就可以计算出样本的一个分布。新样本的数量通常是1000-10000。如果计算成本很小,或者对精度要求比较高,就增加新样本的数量。
Bootstrap是现代非参数统计的重要方法,目的是用来判断统计量的精确程度。非正式地说,Bootstrap不是用来估计参数的,也就是说效果不会变好,而是用来判断原有的估计多大程度上是有效的。
Boostrap跟传统的区间估计是有些相似的。比如,无论总体的分布是什么样,我们知道样本均值是渐进正态分布的,假设总体均值存在。利用渐进分布我们就可以构造样本均值的置信区间。
但是问题是,要多少样本量才收敛到渐进分布呢?如果总体不是常见分布,我们很难判断近似程度。并且,有的时候渐进分布很难写出来。
Boostrap就提供了一种灵活的,绝大多情况都有效的方法,去判断统计量的是否合适。我们可以把样本当成一种“伪总体“,那么,依造经验分布而产生新的抽样分布上的统计量,应该与依造总体分布而产生的经验分布上的统计量具有相似的特征。
优点:简单易于操作。
缺点:bootstrapping的运用基于很多统计学假设,因此假设的成立与否会影响采样的准确性。








暂无数据