登录
首页精彩阅读R语言中apply家族中的系列循环函数总结
R语言中apply家族中的系列循环函数总结
2017-04-08
收藏

R语言中apply家族中的系列循环函数总结

R语言中的以apply()函数为首的apply()家族,提供了强大而方便的循环功能,这些函数说起来简单,用起来可能就有点蒙圈儿了。这些函数确实简单,但是可能很多人搞不清这些函数究竟有什么用处与区别呢?R中不是已经有for循环了吗?其实作为一种与Matlab一样的向量化语言,用for循环会把本来速度就慢的R语言的速度拖的更慢,这就要用到apply()家族函数了,下面就对apply()家族中的函数分别做详细的介绍,以便于区别他们。

1、apply函数

apply()是用的最多,也是最好理解的函数了。比如

> x<-cbind(3,c(1:5,4:1))

x是一个9行2列的矩阵


> x

[,1] [,2]

[1,]    3    1

[2,]    3    2

[3,]    3    3

[4,]    3    4

[5,]    3    5

[6,]    3    4

[7,]    3    3

[8,]    3    2

[9,]    3    1

> apply(x,1,mean)

[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0

> apply(x,2,mean)

[1] 3.000000 2.777778

这里第一个参数表示应用的数据为x,第三个参数为应用的函数名(这里是平均值函数),第二个参数取1表示对9行数据求每行均值,取2表示对2列每列求均值。其实对于一个三维数组,第二个参数取3表示对第三维分别应用指定的函数。比如


> x<-array(c(1:24),dim = c(2,3,4))

> x

, , 1


[,1] [,2] [,3]

[1,]    1    3    5

[2,]    2    4    6


, , 2


[,1] [,2] [,3]

[1,]    7    9   11

[2,]    8   10   12


, , 3


[,1] [,2] [,3]

[1,]   13   15   17

[2,]   14   16   18


, , 4


[,1] [,2] [,3]

[1,]   19   21   23

[2,]   20   22   24

> apply(x,3,mean)

[1]  3.5  9.5 15.5 21.5

这里,由于x的第三维有4个组,因此循环进行了4次,得出了4个值。当然了,这里的指定函数也可以是自定义函数。


2、lapply函数

apply()函数主要是对向量进行循环,而lapply()函数则在对列表元素进行循环时特别有用。

例一

> apply(x,3,mean)

[1]  3.5  9.5 15.5 21.5

> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))

> x

$a1

[1] 1 2 3 4 5 6 7 8


$a2

[1]  TRUE FALSE FALSE  TRUE  TRUE

> lapply(x,mean)

$a1

[1] 4.5


$a2

[1] 0.6

这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值,这里列表的第二个元素为布尔型,显然将其0~1对待,求出了均值。

例二

> lapply(x,quantile)

$a1

0%  25%  50%  75% 100% 

1.00 2.75 4.50 6.25 8.00 


$a2

0%  25%  50%  75% 100% 

0    0    1    1    1 

这里用lapply()函数指定quantile给出了x的分位数。


3、sapply函数

看下面例子

> sapply(x,quantile)

a1 a2

0%   1.00  0

25%  2.75  0

50%  4.50  1

75%  6.25  1

100% 8.00  1

显然,我们发现这里用sapply()函数也指定quantile求出了x的分位数,与lapply()函数不同的是:sapply()函数默认返回的是一个矩阵,而lapply()函数返回的时一个列表。其实,在sapply()函数中如果返回的长度不一样不能生成矩阵时,才会生成一个列表。

> x1

$a1

[1] 1 2 3 4 5 6 7 8


$a2

[1]  TRUE FALSE FALSE  TRUE  TRUE

这里自定义函数f()返回参数本身,x中两列不一样长,返回类型就为列表。


4、tapply函数

前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单,tapply()函数提供了更强大、更灵活的循环方式,可能也更难以理解。

例一

> a<-as.factor(c(1,1,2,3,3))

> a

[1] 1 1 2 3 3

Levels: 1 2 3

> tapply(a,a,length)

1 2 3 

2 1 2 

这里tapply()函数有三个参数,第一个参数指定因子类型a为被循环对象,第二个参数指定a为指针参数,第三个参数指定应用的函数为求长度函数length,这里由于a的因子水平为3,故tapply()函数循环了三次,分别求出三个水平的出现次数。

例二

这里以warpbreaks数据集为例

> head(warpbreaks)

breaks wool tension

1     26    A       L

2     30    A       L

3     54    A       L

4     25    A       L

5     70    A       L

6     52    A       L

> summary(warpbreaks[,c(2:3)])

wool   tension

A:27   L:18   

B:27   M:18   

H:18

warpbreaks的wool变量有两个分类,tension有三个分类。

> tapply(warpbreaks$breaks,warpbreaks[-1],sum)

tension

wool   L   M   H

A 401 216 221

B 254 259 169

这里以warpbreaks的breaks变量作为应用对象,除去第一列(warpbreaks[-1])作为指针参数,第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量,tension有三个变量,一共有2x3 = 6种组合。比如wool = A,tension = L时求和所有breaks就是401。我们可以检验一下如下:

> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])

[1] 401

显然,wool = A,tension = L时求和所有breaks就是401。


5、mapply函数

mapply()函数与tapply()函数还是比较相似的,不过与其它apply家族的函数相比,mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。

例一

> mapply(rep,1:4,4:1)

[[1]]

[1] 1 1 1 1

[[2]]

[1] 2 2 2

[[3]]

[1] 3 3

[[4]]

[1] 4

这里mapply()函数有三个参数,第一个指定应用的 函数为rep,就是重复函数;第二个参数指定被应用的对象为序列4:1,第三个参数指定重复的次数分别为1:4,即4要重复一次,3要重复两次等。数据分析师培训

例二

mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))

[[1]]

[1] 11

[[2]]

[1] 21 22

[[3]]

[1] 31 32 33

这里自定义了一个函数seq_len(x)+y,其中seq_len(x)函数作用是生成一个1:X的序列,比如:

> seq_len(3)

[1] 1 2 3

那么对c(1,2,3)就会依次生成1,1:2,1:3的序列,再分别加上10,20,30,就会得到那样的结果了。

可以看出,mapply()函数主要是对中间对象元素与第三个对象元素一一对应,分别应用前面的指定函数。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询