CDA持证人阿涛哥

2023-02-03   阅读量: 2147

数据分析师 大数据

如何解决数据倾斜问题?

扫码加入数据分析学习群

解决数据倾斜问题的方案

方案一:过滤掉倾斜数据 当少量key重复次数特别多,如果这种key不是业务需要的key可以直接过滤掉。

方案二:引入随机数 数据按照类型group by时,会将相同的key所需的数据拉取到一 个节点进行聚合,而当某组数据量过大时,会出现其他组已经计算完 成而当前任务未完成的情况。可以考虑加入随机数,将原来的一组key 强制拆分为多组进行聚合。

501.8182 4 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子