登录
首页大数据时代数据倾斜解决优化方法有哪些?
数据倾斜解决优化方法有哪些?
2020-07-02
收藏

数据分析时,数据量大不可怕,可怕的是数据倾斜。当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势。下面小编就给大家分享几种数据倾斜优化的方法,希望对大家有所帮助。

一、解决思路

业务逻辑

程序层面

调参方面

二、解决方法

1.针对goupby出现数据倾斜

解决策略是对key值进行加盐处理:

核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,此时原先一样的key就变成不一样的了,接着对打上随机数后的数据,执行sum,count等聚合操作,进行局部聚合。然后将各个key的前缀给去掉,就会变成(hello,2)(hello,2),再次进行全局聚合操作,就可以得到最终结果了。

方案优点:对于聚合类的shuffle操作导致的数据倾斜,效果是非常不错的。通常都可以解决掉数据倾斜,或者至少是大幅度缓解数据倾斜

方案缺点:仅仅适用于聚合类的shuffle操作,适用范围相对较窄。如果是join类的shuffle操作,还得用其他的解决方案。

2.针对join出现的数据倾斜

方案一:抽样求出引起数据倾斜的key值,进行过滤处理

情景:某张表中数据分布不均,个别key值出现次数占比很大,引起join数据倾斜,例如数据空值或者爬虫IP

处理思路:首先对数据进行抽样,选出key占比较大列表,采取过滤处理,去掉无效值或者加盐等处理,然后先进行局部处理,在整体处理

优点:可以快速解决数据倾斜问题

缺点:应用场景受限,适用于几个key值偏多的情况

方案二:优先使用mapjoin

由于map阶段不会发生数据倾斜,使用mapjoin可以防止数据倾斜,join操作中的表的数据量比较小(比如几百M或者一两G),比较适用此方案。

方案优点:对join操作导致的数据倾斜,效果非常好,因为根本就不会发生shuffle,也就根本不会发生数据倾斜

方案缺点:适用场景较少,因为这个方案只适用于一个大表和一个小表的情况。

数据分析咨询请扫描二维码

客服在线
立即咨询