R语言中apply家族中的系列循环函数总结
R语言中的以apply()函数为首的apply()家族,提供了强大而方便的循环功能,这些函数说起来简单,用起来可能就有点蒙圈儿了。这些函数确实简单,但是可能很多人搞不清这些函数究竟有什么用处与区别呢?R中不是已经有for循环了吗?其实作为一种与Matlab一样的向量化语言,用for循环会把本来速度就慢的R语言的速度拖的更慢,这就要用到apply()家族函数了,下面就对apply()家族中的函数分别做详细的介绍,以便于区别他们。
1、apply函数
apply()是用的最多,也是最好理解的函数了。比如
> x<-cbind(3,c(1:5,4:1))
x是一个9行2列的矩阵
> x
[,1] [,2]
[1,] 3 1
[2,] 3 2
[3,] 3 3
[4,] 3 4
[5,] 3 5
[6,] 3 4
[7,] 3 3
[8,] 3 2
[9,] 3 1
> apply(x,1,mean)
[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0
> apply(x,2,mean)
[1] 3.000000 2.777778
这里第一个参数表示应用的数据为x,第三个参数为应用的函数名(这里是平均值函数),第二个参数取1表示对9行数据求每行均值,取2表示对2列每列求均值。其实对于一个三维数组,第二个参数取3表示对第三维分别应用指定的函数。比如
> x<-array(c(1:24),dim = c(2,3,4))
> x
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
, , 3
[,1] [,2] [,3]
[1,] 13 15 17
[2,] 14 16 18
, , 4
[,1] [,2] [,3]
[1,] 19 21 23
[2,] 20 22 24
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
这里,由于x的第三维有4个组,因此循环进行了4次,得出了4个值。当然了,这里的指定函数也可以是自定义函数。
2、lapply函数
apply()函数主要是对向量进行循环,而lapply()函数则在对列表元素进行循环时特别有用。
例一
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))
> x
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
> lapply(x,mean)
$a1
[1] 4.5
$a2
[1] 0.6
这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值,这里列表的第二个元素为布尔型,显然将其0~1对待,求出了均值。
例二
> lapply(x,quantile)
$a1
0% 25% 50% 75% 100%
1.00 2.75 4.50 6.25 8.00
$a2
0% 25% 50% 75% 100%
0 0 1 1 1
这里用lapply()函数指定quantile给出了x的分位数。
3、sapply函数
看下面例子
> sapply(x,quantile)
a1 a2
0% 1.00 0
25% 2.75 0
50% 4.50 1
75% 6.25 1
100% 8.00 1
显然,我们发现这里用sapply()函数也指定quantile求出了x的分位数,与lapply()函数不同的是:sapply()函数默认返回的是一个矩阵,而lapply()函数返回的时一个列表。其实,在sapply()函数中如果返回的长度不一样不能生成矩阵时,才会生成一个列表。
> x1
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
这里自定义函数f()返回参数本身,x中两列不一样长,返回类型就为列表。
4、tapply函数
前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单,tapply()函数提供了更强大、更灵活的循环方式,可能也更难以理解。
例一
> a<-as.factor(c(1,1,2,3,3))
> a
[1] 1 1 2 3 3
Levels: 1 2 3
> tapply(a,a,length)
1 2 3
2 1 2
这里tapply()函数有三个参数,第一个参数指定因子类型a为被循环对象,第二个参数指定a为指针参数,第三个参数指定应用的函数为求长度函数length,这里由于a的因子水平为3,故tapply()函数循环了三次,分别求出三个水平的出现次数。
例二
这里以warpbreaks数据集为例
> head(warpbreaks)
breaks wool tension
1 26 A L
2 30 A L
3 54 A L
4 25 A L
5 70 A L
6 52 A L
> summary(warpbreaks[,c(2:3)])
wool tension
A:27 L:18
B:27 M:18
H:18
warpbreaks的wool变量有两个分类,tension有三个分类。
> tapply(warpbreaks$breaks,warpbreaks[-1],sum)
tension
wool L M H
A 401 216 221
B 254 259 169
这里以warpbreaks的breaks变量作为应用对象,除去第一列(warpbreaks[-1])作为指针参数,第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量,tension有三个变量,一共有2x3 = 6种组合。比如wool = A,tension = L时求和所有breaks就是401。我们可以检验一下如下:
> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])
[1] 401
显然,wool = A,tension = L时求和所有breaks就是401。
5、mapply函数
mapply()函数与tapply()函数还是比较相似的,不过与其它apply家族的函数相比,mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。
例一
> mapply(rep,1:4,4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4
这里mapply()函数有三个参数,第一个指定应用的 函数为rep,就是重复函数;第二个参数指定被应用的对象为序列4:1,第三个参数指定重复的次数分别为1:4,即4要重复一次,3要重复两次等。数据分析师培训
例二
mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))
[[1]]
[1] 11
[[2]]
[1] 21 22
[[3]]
[1] 31 32 33
这里自定义了一个函数seq_len(x)+y,其中seq_len(x)函数作用是生成一个1:X的序列,比如:
> seq_len(3)
[1] 1 2 3
那么对c(1,2,3)就会依次生成1,1:2,1:3的序列,再分别加上10,20,30,就会得到那样的结果了。
可以看出,mapply()函数主要是对中间对象元素与第三个对象元素一一对应,分别应用前面的指定函数。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14