R语言中apply家族中的系列循环函数总结-CDA数据分析师官网

热线电话：13121318867

R语言中apply家族中的系列循环函数总结

2017-04-08

R语言中apply家族中的系列循环函数总结

R语言中的以apply()函数为首的apply()家族，提供了强大而方便的循环功能，这些函数说起来简单，用起来可能就有点蒙圈儿了。这些函数确实简单，但是可能很多人搞不清这些函数究竟有什么用处与区别呢？R中不是已经有for循环了吗？其实作为一种与Matlab一样的向量化语言，用for循环会把本来速度就慢的R语言的速度拖的更慢，这就要用到apply()家族函数了，下面就对apply()家族中的函数分别做详细的介绍，以便于区别他们。

1、apply函数

apply()是用的最多，也是最好理解的函数了。比如

> x<-cbind(3,c(1:5,4:1))

x是一个9行2列的矩阵

> x

[,1] [,2]

[1,] 3 1

[2,] 3 2

[3,] 3 3

[4,] 3 4

[5,] 3 5

[6,] 3 4

[7,] 3 3

[8,] 3 2

[9,] 3 1

> apply(x,1,mean)

[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0

> apply(x,2,mean)

[1] 3.000000 2.777778

这里第一个参数表示应用的数据为x，第三个参数为应用的函数名（这里是平均值函数），第二个参数取1表示对9行数据求每行均值，取2表示对2列每列求均值。其实对于一个三维数组，第二个参数取3表示对第三维分别应用指定的函数。比如

> x<-array(c(1:24),dim = c(2,3,4))

> x

, , 1

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

, , 2

[,1] [,2] [,3]

[1,] 7 9 11

[2,] 8 10 12

, , 3

[,1] [,2] [,3]

[1,] 13 15 17

[2,] 14 16 18

, , 4

[,1] [,2] [,3]

[1,] 19 21 23

[2,] 20 22 24

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

这里，由于x的第三维有4个组，因此循环进行了4次，得出了4个值。当然了，这里的指定函数也可以是自定义函数。

2、lapply函数

apply()函数主要是对向量进行循环，而lapply()函数则在对列表元素进行循环时特别有用。

例一

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))

> x

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

> lapply(x,mean)

$a1

[1] 4.5

$a2

[1] 0.6

这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值，这里列表的第二个元素为布尔型，显然将其0~1对待，求出了均值。

例二

> lapply(x,quantile)

$a1

0% 25% 50% 75% 100%

1.00 2.75 4.50 6.25 8.00

$a2

0% 25% 50% 75% 100%

0 0 1 1 1

这里用lapply()函数指定quantile给出了x的分位数。

3、sapply函数

看下面例子

> sapply(x,quantile)

a1 a2

0% 1.00 0

25% 2.75 0

50% 4.50 1

75% 6.25 1

100% 8.00 1

显然，我们发现这里用sapply()函数也指定quantile求出了x的分位数，与lapply()函数不同的是：sapply()函数默认返回的是一个矩阵，而lapply()函数返回的时一个列表。其实，在sapply()函数中如果返回的长度不一样不能生成矩阵时，才会生成一个列表。

> x1

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

这里自定义函数f()返回参数本身，x中两列不一样长，返回类型就为列表。

4、tapply函数

前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单，tapply()函数提供了更强大、更灵活的循环方式，可能也更难以理解。

例一

> a<-as.factor(c(1,1,2,3,3))

> a

[1] 1 1 2 3 3

Levels: 1 2 3

> tapply(a,a,length)

1 2 3

2 1 2

这里tapply()函数有三个参数，第一个参数指定因子类型a为被循环对象，第二个参数指定a为指针参数，第三个参数指定应用的函数为求长度函数length，这里由于a的因子水平为3，故tapply()函数循环了三次，分别求出三个水平的出现次数。

例二

这里以warpbreaks数据集为例

> head(warpbreaks)

breaks wool tension

1 26 A L

2 30 A L

3 54 A L

4 25 A L

5 70 A L

6 52 A L

> summary(warpbreaks[,c(2:3)])

wool tension

A:27 L:18

B:27 M:18

H:18

warpbreaks的wool变量有两个分类，tension有三个分类。

> tapply(warpbreaks$breaks,warpbreaks[-1],sum)

tension

wool L M H

A 401 216 221

B 254 259 169

这里以warpbreaks的breaks变量作为应用对象，除去第一列(warpbreaks[-1])作为指针参数，第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量，tension有三个变量，一共有2x3 = 6种组合。比如wool = A，tension = L时求和所有breaks就是401。我们可以检验一下如下：

> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])

[1] 401

显然，wool = A，tension = L时求和所有breaks就是401。

5、mapply函数

mapply()函数与tapply()函数还是比较相似的，不过与其它apply家族的函数相比，mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。

例一

> mapply(rep,1:4,4:1)

[[1]]

[1] 1 1 1 1

[[2]]

[1] 2 2 2

[[3]]

[1] 3 3

[[4]]

[1] 4

这里mapply()函数有三个参数，第一个指定应用的函数为rep，就是重复函数；第二个参数指定被应用的对象为序列4：1，第三个参数指定重复的次数分别为1：4，即4要重复一次，3要重复两次等。数据分析师培训

例二

mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))

[[1]]

[1] 11

[[2]]

[1] 21 22

[[3]]

[1] 31 32 33

这里自定义了一个函数seq_len(x)+y，其中seq_len(x)函数作用是生成一个1：X的序列，比如：

> seq_len(3)

[1] 1 2 3

那么对c(1,2,3)就会依次生成1，1：2，1：3的序列，再分别加上10，20，30，就会得到那样的结果了。

可以看出，mapply()函数主要是对中间对象元素与第三个对象元素一一对应，分别应用前面的指定函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中apply家族中的系列循环函数总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载