啊啊啊啊啊吖

2018-11-26   阅读量: 694

数据分析师 R语言 数据挖掘

抽样

扫码加入数据分析学习群

(3) 抽样

抽样也是一种数据规约技术, 它用比原始数据小得多的随机样本(子集) 表示原始数据集。 假定原始数据集D包含N个元组, 可以采用抽样方法

对D进行抽样。 下面介绍常用的抽样方法。 在R中, 抽样可以通过函数

sample(N, s, replace=T/F) 实现, 实际中相当于先从1~N, 共N个自然数

中抽取s个, 然后将抽到的s个自然数作为数据框中观测的行位置进行目标元

组的调出, 抽样所得新数据集newD=D[sample(N, s,

replace=T/F) , ] 。

s个样本有放回简单随机抽样: 从D的N个元组中抽取s个样本(s<N) ,

其中D中任意元组被抽取的概率均为1/N, 即所有元组的抽取是等可能的, R

中对应抽样函数为sample(N, s, replace=T) 。

s个样本无放回简单随机抽样: 该方法类似于无放回简单随机抽样, 不

同在于每次一个元组从D中抽取后, 记录它, 然后放回原处, 其对应抽样函

数为sample(N, s, replace=F) 。

聚类抽样: 如果D中的元组分组放入M个互不相交的“簇”, 则可以得到s

个簇的简单随机抽样, 其中s<M。 例如, 数据库中元组通常一次检索一页,

这样每页就可以视为一个簇。

分层抽样: 如果D划分成互不相交的部分, 称作层, 则通过对每一层的

简单随机抽样就可以得到D的分层样本。 例如, 可以得到关于顾客数据的一

个分层样本, 按照顾客的每个年龄组创建分层。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子