啊啊啊啊啊吖

2018-11-03   阅读量: 616

数据分析师 R语言

按多个变量分组

扫码加入数据分析学习群

当使用多个变量进行分组时,每次的摘要统计会用掉一个分组变量。这样就可以轻松地对

数据集进行循序渐进的分析:

daily <- group_by(flights, year, month, day)
(per_day <- summarize(daily, flights = n()))
#> Source: local data frame [365 x 4]
#> Groups: year, month [?]
#>
#> year month day flights
#> <int> <int> <int> <int>
#> 1 2013 1 1 842
#> 2 2013 1 2 943
#> 3 2013 1 3 914
#> 4 2013 1 4 915
#> 5 2013 1 5 720
#> 6 2013 1 6 832
#> # ... with 359 more rows
(per_month <- summarize(per_day, flights = sum(flights)))
#> Source: local data frame [12 x 3]
#> Groups: year [?]
#>
#> year month flights
#> <int> <int> <int>
#> 1 2013 1 27004
#> 2 2013 2 24951
#> 3 2013 3 28834
#> 4 2013 4 28330
#> 5 2013 5 28796


#> 6 2013 6 28243
#> # ... with 6 more rows
(per_year <- summarize(per_month, flights = sum(flights)))
#> # A tibble: 1 × 2
#> year flights
#> <int> <int>
#> 1 2013 336776

在循序渐进地进行摘要分析时,需要小心:使用求和与计数操作是没问题的,但如果想要

使用加权平均和方差的话,就要仔细考虑一下,在基于秩的统计数据(如中位数)上是无

法进行这些操作的。换句话说,对分组求和的结果再求和就是对整体求和,但分组中位数

的中位数可不是整体的中位数。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子