数据倾斜解决优化方法有哪些？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代数据倾斜解决优化方法有哪些？

数据倾斜解决优化方法有哪些？

2020-07-02

数据分析时，数据量大不可怕，可怕的是数据倾斜。当出现数据倾斜时，小量任务耗时远高于其它任务，从而使得整体耗时过大，未能充分发挥分布式系统的并行计算优势。下面小编就给大家分享几种数据倾斜优化的方法，希望对大家有所帮助。

一、解决思路

业务逻辑

程序层面

调参方面

二、解决方法

1.针对goupby出现数据倾斜

解决策略是对key值进行加盐处理：

核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，此时原先一样的key就变成不一样的了，接着对打上随机数后的数据，执行sum,count等聚合操作，进行局部聚合。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了。

方案优点：对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的。通常都可以解决掉数据倾斜，或者至少是大幅度缓解数据倾斜

方案缺点：仅仅适用于聚合类的shuffle操作，适用范围相对较窄。如果是join类的shuffle操作，还得用其他的解决方案。

2.针对join出现的数据倾斜

方案一：抽样求出引起数据倾斜的key值，进行过滤处理

情景：某张表中数据分布不均，个别key值出现次数占比很大，引起join数据倾斜，例如数据空值或者爬虫IP

处理思路：首先对数据进行抽样，选出key占比较大列表，采取过滤处理，去掉无效值或者加盐等处理，然后先进行局部处理，在整体处理

优点：可以快速解决数据倾斜问题

缺点：应用场景受限，适用于几个key值偏多的情况

方案二：优先使用mapjoin

由于map阶段不会发生数据倾斜，使用mapjoin可以防止数据倾斜，join操作中的表的数据量比较小(比如几百M或者一两G)，比较适用此方案。

方案优点：对join操作导致的数据倾斜，效果非常好，因为根本就不会发生shuffle，也就根本不会发生数据倾斜。

方案缺点：适用场景较少，因为这个方案只适用于一个大表和一个小表的情况。