R语言中apply家族中的系列循环函数总结-CDA数据分析师官网

热线电话：13121318867

R语言中apply家族中的系列循环函数总结

2017-04-08

R语言中apply家族中的系列循环函数总结

R语言中的以apply()函数为首的apply()家族，提供了强大而方便的循环功能，这些函数说起来简单，用起来可能就有点蒙圈儿了。这些函数确实简单，但是可能很多人搞不清这些函数究竟有什么用处与区别呢？R中不是已经有for循环了吗？其实作为一种与Matlab一样的向量化语言，用for循环会把本来速度就慢的R语言的速度拖的更慢，这就要用到apply()家族函数了，下面就对apply()家族中的函数分别做详细的介绍，以便于区别他们。

1、apply函数

apply()是用的最多，也是最好理解的函数了。比如

> x<-cbind(3,c(1:5,4:1))

x是一个9行2列的矩阵

> x

[,1] [,2]

[1,] 3 1

[2,] 3 2

[3,] 3 3

[4,] 3 4

[5,] 3 5

[6,] 3 4

[7,] 3 3

[8,] 3 2

[9,] 3 1

> apply(x,1,mean)

[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0

> apply(x,2,mean)

[1] 3.000000 2.777778

这里第一个参数表示应用的数据为x，第三个参数为应用的函数名（这里是平均值函数），第二个参数取1表示对9行数据求每行均值，取2表示对2列每列求均值。其实对于一个三维数组，第二个参数取3表示对第三维分别应用指定的函数。比如

> x<-array(c(1:24),dim = c(2,3,4))

> x

, , 1

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

, , 2

[,1] [,2] [,3]

[1,] 7 9 11

[2,] 8 10 12

, , 3

[,1] [,2] [,3]

[1,] 13 15 17

[2,] 14 16 18

, , 4

[,1] [,2] [,3]

[1,] 19 21 23

[2,] 20 22 24

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

这里，由于x的第三维有4个组，因此循环进行了4次，得出了4个值。当然了，这里的指定函数也可以是自定义函数。

2、lapply函数

apply()函数主要是对向量进行循环，而lapply()函数则在对列表元素进行循环时特别有用。

例一

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))

> x

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

> lapply(x,mean)

$a1

[1] 4.5

$a2

[1] 0.6

这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值，这里列表的第二个元素为布尔型，显然将其0~1对待，求出了均值。

例二

> lapply(x,quantile)

$a1

0% 25% 50% 75% 100%

1.00 2.75 4.50 6.25 8.00

$a2

0% 25% 50% 75% 100%

0 0 1 1 1

这里用lapply()函数指定quantile给出了x的分位数。

3、sapply函数

看下面例子

> sapply(x,quantile)

a1 a2

0% 1.00 0

25% 2.75 0

50% 4.50 1

75% 6.25 1

100% 8.00 1

显然，我们发现这里用sapply()函数也指定quantile求出了x的分位数，与lapply()函数不同的是：sapply()函数默认返回的是一个矩阵，而lapply()函数返回的时一个列表。其实，在sapply()函数中如果返回的长度不一样不能生成矩阵时，才会生成一个列表。

> x1

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

这里自定义函数f()返回参数本身，x中两列不一样长，返回类型就为列表。

4、tapply函数

前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单，tapply()函数提供了更强大、更灵活的循环方式，可能也更难以理解。

例一

> a<-as.factor(c(1,1,2,3,3))

> a

[1] 1 1 2 3 3

Levels: 1 2 3

> tapply(a,a,length)

1 2 3

2 1 2

这里tapply()函数有三个参数，第一个参数指定因子类型a为被循环对象，第二个参数指定a为指针参数，第三个参数指定应用的函数为求长度函数length，这里由于a的因子水平为3，故tapply()函数循环了三次，分别求出三个水平的出现次数。

例二

这里以warpbreaks数据集为例

> head(warpbreaks)

breaks wool tension

1 26 A L

2 30 A L

3 54 A L

4 25 A L

5 70 A L

6 52 A L

> summary(warpbreaks[,c(2:3)])

wool tension

A:27 L:18

B:27 M:18

H:18

warpbreaks的wool变量有两个分类，tension有三个分类。

> tapply(warpbreaks$breaks,warpbreaks[-1],sum)

tension

wool L M H

A 401 216 221

B 254 259 169

这里以warpbreaks的breaks变量作为应用对象，除去第一列(warpbreaks[-1])作为指针参数，第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量，tension有三个变量，一共有2x3 = 6种组合。比如wool = A，tension = L时求和所有breaks就是401。我们可以检验一下如下：

> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])

[1] 401

显然，wool = A，tension = L时求和所有breaks就是401。

5、mapply函数

mapply()函数与tapply()函数还是比较相似的，不过与其它apply家族的函数相比，mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。

例一

> mapply(rep,1:4,4:1)

[[1]]

[1] 1 1 1 1

[[2]]

[1] 2 2 2

[[3]]

[1] 3 3

[[4]]

[1] 4

这里mapply()函数有三个参数，第一个指定应用的函数为rep，就是重复函数；第二个参数指定被应用的对象为序列4：1，第三个参数指定重复的次数分别为1：4，即4要重复一次，3要重复两次等。数据分析师培训

例二

mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))

[[1]]

[1] 11

[[2]]

[1] 21 22

[[3]]

[1] 31 32 33

这里自定义了一个函数seq_len(x)+y，其中seq_len(x)函数作用是生成一个1：X的序列，比如：

> seq_len(3)

[1] 1 2 3

那么对c(1,2,3)就会依次生成1，1：2，1：3的序列，再分别加上10，20，30，就会得到那样的结果了。

可以看出，mapply()函数主要是对中间对象元素与第三个对象元素一一对应，分别应用前面的指定函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中apply家族中的系列循环函数总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

为什么学习数据分析？

持证人与会员-证书年检

CDA持证人专访：姜寿明谈金融领域数据分析与方案解 ...

【CDA干货】Excel平均增长率计算：原理、公式实操与 ...

从“数字”到“数据”：CDA数据分析师视角下的统计 ...

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载