CDA持证人阿涛哥

2023-02-03   阅读量: 2174

大数据

数据倾斜是什么?

扫码加入数据分析学习群

数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在 map 100%reduce 99%,最后的1%花了几个小时都没执行完 时,这时一般是遇到了数据倾斜。 问题出现的原因是当进行分布式计算时,由于某些节点需要计算 的数据较多,导致其他节点的reduce阶段任务执行完成时,该节点的 任务还没有执行完成,造成其他节点等待该节点执行完成的情况。比 如两张大表在join的时候大部分key对应10条数据,但是个别几个key 对应了100万条数据,对应10条数据的task很快执行完成了,但对应 100万数据的key则要执行几个小时。

21.8182 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子