PGC123

2019-06-27   阅读量: 749

大数据 数据分析师 Hive

hive中的分组聚合优化如何做?

扫码加入数据分析学习群

hive中的分组聚合优化如何做?

答:

分组

两个聚集函数不能有不同的DISTINCT列,以下表达式是错误的:

INSERT OVERWRITE TABLE pv_gender_agg 
SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip)
FROM pv_users
GROUP BY pv_users.gender;

SELECT语句中只能有GROUP BY的列或者聚集函数。

Combiner聚合

hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。

hive.groupby.mapaggr.checkinterval:在Map端进行聚合操作的条目数目

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
58.9442 1 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子