热线电话:13121318867

登录
2019-06-27 阅读量: 944
hive中的分组聚合优化如何做?

hive中的分组聚合优化如何做?

答:

分组

两个聚集函数不能有不同的DISTINCT列,以下表达式是错误的:

INSERT OVERWRITE TABLE pv_gender_agg 
SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip)
FROM pv_users
GROUP BY pv_users.gender;

SELECT语句中只能有GROUP BY的列或者聚集函数。

Combiner聚合

hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。

hive.groupby.mapaggr.checkinterval:在Map端进行聚合操作的条目数目

58.9442
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子