数据倾斜是什么,产生原因有哪些?
2020-06-30
7563
数据倾斜是数据挖掘过程中的常见问题,尤其是在需要处理的数据量过于庞大时,我们可能会需要花费几周甚至更长时间去处理。小编今天就来跟大家分享一下数据倾斜的表现以及产生原因,希望对各位小伙伴有所帮助。
1、数据倾斜概念
由于数据分配不均匀,造成数据大量集中到一点,造成数据热点
2、数据倾斜主要表现
任务进度长时间内徘徊在99%或者100%左右,但根据任务监控页面显示,未完成的只有少量reduce子任务,原因是这些子任务的数据量和其他的reduce差异过大。单一reduce处理的记录数与平均记录数相比差距过高,最高能达到达到好几倍之多,最长时间远远超过平均时长。
3、容易数据倾斜情况
4、数据倾斜产生的原因:
A:key 分布不均匀
B:业务数据本身的特性
C:在考虑不周全情况下建表
D:某些 HQL 语句本身就存在数据倾斜
以上就是小编今天跟大家分享的数据倾斜的一些内容,希望对各位小伙伴数据挖掘工作有所帮助。