R中的apply族函数-CDA数据分析师官网

热线电话：13121318867

R中的apply族函数

2017-02-19

R中的apply族函数

如果计算涉及到一个单一的向量，而结果也是一个向量， tapply函数是一个可选项，不同于aggregate函数，它返回一个向量或数组，这使得其单个元素很容易被访问。

将组定义为矩阵的行或列，即操作目标为矩阵的每一列或行时， apply函数时最佳选择。该函数通常会返回一个向量或数组，但根据行或列操作的结果维度不同，将返回一个列表。

将组定义为列表中的元素。如果组已经形成列表元素，那么 sapply或lapply函数比较适合，它们的区别是lapply返回一个列表，而sapply可将输出简化为向量或数组。有时可以结合使用split函数，将需要处理的数据创建为一个列表，然后再使用这两个函数。

如果所要计算函数的参数为一个矩阵或数组，可以考虑使用 mapply函数，该函数非常的灵活和简单，其返回的结果一般是列表形式。

先来看一下tapply()、apply()、lapply()、sapply()和mapply()函数的语法规则:

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

apply(X, MARGIN, FUN, ...)

lapply(X, FUN, ...)

sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,

USE.NAMES = TRUE)

根据不同的函数，输入数据X可能是向量、数组、矩阵或数据框；INDEX一般为类别变量；MARGIN指定矩阵的维度，1表示矩阵的行，2表示矩阵的列；FUN为参与运算的函数，可以是R自带的函数也可以是自己编写的函数；...为函数FUN指定的参数，紧跟在函数的后面。

接下来看一下各个函数的应用情况

为了处理基于一个或多个分组变量的单个向量，可以使用tapply函数，该函数返回一个数组，其维数与分组向量的维数相同。

注意，该函数的输入数据必须是向量，且分析向量与分组向量的长度必须一致

如果想分析iris数据集中Sepal.Length在各个花种中的最大值，可以通过tapply函数实现，这里的Sepal.Length和Species为两个向量，且各自的长度均相等。

如果想对某个变量(向量)进行多变量的分组分析时，也可以采用tapply函数。

首先构造一个数据框：

接下来想对z变量做分组统计，分组变量为x和y

这里的NA表示x和y的分组中没有对应的z值。

当数据具备数组的特性，可通过 apply函数对数据的每个维度进行运算，该函数需要三个参数：需要计算的数组、运算维度的索引号和使用的函数。

标准化一个矩阵：这里可以直接给参数FUN为scale

当然，如果想统计各个列的均值，为比较显式循环和apply的隐式循环，程序如下，就可以比较出两种方式的效率：

结果显式，通过apply计算矩阵列的均值速度是显式循环的50倍。这说明在R中使用循环的话尽量使用到隐式的向量化计算，否则计算效率非常差。

再来看一个如何使用自编函数应用到apply中：这里显式了前7列的统计量值。

lapply()函数和sapply()函数把一个列表或向量作为其第一个参数，再把需要应用到每个列表元素的函数作为它的第二个参数。其实它也应用到了循环，是一种隐式的循环，对列表的每一个元素做同样的函数计算。

应用：查看字符向量中每一个元素所包含的单词个数

使用sapply函数的另一个重要问题涉及到数据框。当数据框被视为列表时，数据框的每一列看着独立的列表元素。

查看数据集iris和ChickWeight各个字段的模式和类

通过以上的应用，可以提取满足特定条件的数据框的列

接下来使用自编函数加入到sapply函数中，实现循环。该自编函数的目的是计算出1000个100*5的矩阵中最大相关系数的均值。这里很关键的一点是给自编函数传一个虚拟参数i用来循环。

最后再来看一下mapply函数的应用：该函数的第一个参数为指定的函数，第二个参数为指定函数的参数。如果根据某种正则表达式将一个字符向量的对应特征取出来，例如取出'qaws1few4g'中的'1f'和'4g'

最后总结一下：

tapply()的被分析对象必须且只能是向量

apply()的被分析对象必须且只能是矩阵或数组

sapply()的被分析对象必须且只能是向量或列表

lapply()的被分析对象必须且只能是向量或列表

mapply()的被分析对象必须是函数

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征正则表达式字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R中的apply族函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载