CDA数据科学研究院 CDA考试中心 CDA人工智能学院 企业服务 关于CDA

cda

全国校区

您的位置:首页 > 大数据时代 > 数据倾斜是什么,产生原因有哪些?

数据倾斜是什么,产生原因有哪些?

2020-06-30

数据倾斜数据挖掘过程中的常见问题,尤其是在需要处理的数据量过于庞大时,我们可能会需要花费几周甚至更长时间去处理。小编今天就来跟大家分享一下数据倾斜的表现以及产生原因,希望对各位小伙伴有所帮助。

1、数据倾斜概念

由于数据分配不均匀,造成数据大量集中到一点,造成数据热点

2、数据倾斜主要表现

任务进度长时间内徘徊在99%或者100%左右,但根据任务监控页面显示,未完成的只有少量reduce子任务,原因是这些子任务的数据量和其他的reduce差异过大。单一reduce处理的记录数与平均记录数相比差距过高,最高能达到达到好几倍之多,最长时间远远超过平均时长。

3、容易数据倾斜情况

4、数据倾斜产生的原因:

A:key 分布不均匀

B:业务数据本身的特性

C:在考虑不周全情况下建表

D:某些 HQL 语句本身就存在数据倾斜

以上就是小编今天跟大家分享的数据倾斜的一些内容,希望对各位小伙伴数据挖掘工作有所帮助。

完 谢谢观看

分享
收藏

OK