抽样_CDA答疑社区

啊啊啊啊啊吖

2018-11-26 阅读量: 1287

抽样

（3）抽样

抽样也是一种数据规约技术，它用比原始数据小得多的随机样本（子集）表示原始数据集。假定原始数据集D包含N个元组，可以采用抽样方法

对D进行抽样。下面介绍常用的抽样方法。在R中，抽样可以通过函数

sample（N， s， replace=T/F）实现，实际中相当于先从1~N，共N个自然数

中抽取s个，然后将抽到的s个自然数作为数据框中观测的行位置进行目标元

组的调出，抽样所得新数据集newD=D［sample（N， s，

replace=T/F），］。

s个样本有放回简单随机抽样：从D的N个元组中抽取s个样本（s<N），

其中D中任意元组被抽取的概率均为1/N，即所有元组的抽取是等可能的， R

中对应抽样函数为sample（N， s， replace=T）。

s个样本无放回简单随机抽样：该方法类似于无放回简单随机抽样，不

同在于每次一个元组从D中抽取后，记录它，然后放回原处，其对应抽样函

数为sample（N， s， replace=F）。

聚类抽样：如果D中的元组分组放入M个互不相交的“簇”，则可以得到s

个簇的简单随机抽样，其中s<M。例如，数据库中元组通常一次检索一页，

这样每页就可以视为一个簇。

分层抽样：如果D划分成互不相交的部分，称作层，则通过对每一层的

简单随机抽样就可以得到D的分层样本。例如，可以得到关于顾客数据的一

个分层样本，按照顾客的每个年龄组创建分层。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子