登录
首页精彩阅读R数据分析进阶之plyr
R数据分析进阶之plyr
2016-05-19
收藏

R数据分析进阶之plyr

本讲义只考虑基于数据框的操作,所指函数是ddply

基本思想
plyr包数据打理模型是”分割-应用-结合“,这个跟大数据Map/Redcue计算模型极为相似,大概的关系是分割-应用,对应Map,结合对应Reduce。
ddply()函数输入一个数据框,返回一个数据框——这就是ddply()函数前两个字母”dd“的含义:输入一个data frame,输出一个data frame。

语法介绍
ddply(data, group_vars, summarize OR transform, new_var = function(param_var)) 
group_vars: 用于作为分割基准的变量,有两种形式,一种是c("var1", "var2"),一种是.(var1, var2);如果取值为NULL,表示对整个数据框作用函数。
summarize OR transform:  如果采用summarize,新的数据框,只会包含group_vars和new_var;如果采用transform,新的数据框会保留原始的数据框的所有列,new_var会在相同分组的不同行重复填上相同的结果。
new_var = function(param_var):允许使用多个函数。e.g. highestMargin = max(margin), lowestMargin = min(margin)


数据分析咨询请扫描二维码

客服在线
立即咨询