(3) 抽样
抽样也是一种数据规约技术, 它用比原始数据小得多的随机样本(子集) 表示原始数据集。 假定原始数据集D包含N个元组, 可以采用抽样方法
对D进行抽样。 下面介绍常用的抽样方法。 在R中, 抽样可以通过函数
sample(N, s, replace=T/F) 实现, 实际中相当于先从1~N, 共N个自然数
中抽取s个, 然后将抽到的s个自然数作为数据框中观测的行位置进行目标元
组的调出, 抽样所得新数据集newD=D[sample(N, s,
replace=T/F) , ] 。
s个样本有放回简单随机抽样: 从D的N个元组中抽取s个样本(s<N) ,
其中D中任意元组被抽取的概率均为1/N, 即所有元组的抽取是等可能的, R
中对应抽样函数为sample(N, s, replace=T) 。
s个样本无放回简单随机抽样: 该方法类似于无放回简单随机抽样, 不
同在于每次一个元组从D中抽取后, 记录它, 然后放回原处, 其对应抽样函
数为sample(N, s, replace=F) 。
聚类抽样: 如果D中的元组分组放入M个互不相交的“簇”, 则可以得到s
个簇的简单随机抽样, 其中s<M。 例如, 数据库中元组通常一次检索一页,
这样每页就可以视为一个簇。
分层抽样: 如果D划分成互不相交的部分, 称作层, 则通过对每一层的
简单随机抽样就可以得到D的分层样本。 例如, 可以得到关于顾客数据的一
个分层样本, 按照顾客的每个年龄组创建分层。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar