2019-06-27
阅读量:
944
hive中的分组聚合优化如何做?
hive中的分组聚合优化如何做?
答:
分组
两个聚集函数不能有不同的DISTINCT列,以下表达式是错误的:
INSERT OVERWRITE TABLE pv_gender_agg
SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip)
FROM pv_users
GROUP BY pv_users.gender;
SELECT语句中只能有GROUP BY的列或者聚集函数。
Combiner聚合
hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。
hive.groupby.mapaggr.checkinterval:在Map端进行聚合操作的条目数目






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论