Hadoop数据倾斜产生的原因是什么？如何进行处理？-CDA数据分析师官网

热线电话：13121318867

Hadoop数据倾斜产生的原因是什么？如何进行处理？

2020-07-20

大数据处理时我们经常会遇到数据倾斜的问题，尤其是在数据量过大时，数据倾斜可能会导致各种各样的问题。Hadoop 数据倾斜主要表现为：ruduce阶段卡在99.99%，而且是一直99.99%不能结束。

具体来说就是：mapreduce程序执行时，reduce节点大部分已经执行完毕，但是其中会有一个或者几个reduce节点运行速度很慢，从而使得整个程序的处理时间很长。原因是：某一个key的条数比其他key多出太多，因此这条key所在的reduce节点所处理的数据量就比其他节点就大很多，这也就造成了某几个节点迟迟运行不完。由于Hive是分阶段执行的，map处理数据量的差异，取决于上一个stage的reduce输出，因此将数据均匀的分配到各个reduce中，这一点是解决数据倾斜的关键。

一、Hadoop 数据倾斜常见情形

二、Hadoop 数据倾斜产生原因

1.Hadoop框架的特性

A、Hadoop不怕数据大，但是怕数据倾斜

B、Jobs 数多的作业运行效率会相对比较低

C、countdistinct、group by、join等操作，触发了Shuffle动作，导致全部相同key的值聚集在一个或几个节点上，很容易发生单点问题。

2.具体原因

A：key 分布不均匀，某一个key的条数比其他key多太多

B：业务数据自带的特性

C：建表时考虑不全面

D：可能某些 HQL 语句自身就存在数据倾斜问题

三、Hadoop 数据倾斜处理

1、从业务和数据方面解决数据倾斜

(1)有损的方法：找到异常数据。

(2)无损的方法：

对分布不均匀的数据，进行单独计算

首先对key做一层hash，把数据打散，让它的并行度变大，之后进行汇集

(3)数据预处理

2、Hadoop平台的解决方法

(1)针对join产生的数据倾斜

A.大表和小表join产生的数据倾斜

a.在多表关联情况下，将小表(关联键记录少的表)依次放到前面，这样能够触发reduce端减少操作次数，从而减少运行时间。

b.同时使用Map Join让小表缓存到内存。在map端完成join过程，这样就能省掉redcue端的工作。需要注意：这一功能使用时，需要开启map-side join的设置属性：set hive.auto.convert.join=true(默认是false)

还可以对使用这个优化的小表的大小进行设置：set hive.mapjoin.smalltable.filesize=25000000(默认值25M)

B.大表和大表的join产生的数据倾斜

a.j将异常值赋一个随机值，以此来分散key,均匀分配给多个reduce去执行

b.如果key值都是有效值的情况下，需要设置以下几个参数来解决

set hive.exec.reducers.bytes.per.reducer = 1000000000

也就是每个节点的reduce，其默认是处理数据地大小为1G，如果join 操作也产生了数据倾斜，那么就在hive 中设定

set hive.optimize.skewjoin = true;

set hive.skewjoin.key = skew_key_threshold (default = 100000)

(2)group by 造成的数据倾斜

解决方式相对简单：

hive.map.aggr=true (默认true) 这个配置项代表是否在map端进行聚合，相当于Combiner

hive.groupby.skewindata

（3）count(distinct)或者其他参数不当造成的数据倾斜

A.reduce个数太少

set mapred.reduce.tasks=800

B.HiveQL中包含count(distinct)时

使用sum...group byl来替代。例如select a,sum(1) from (select a, b from t group by a,b) group by a;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据倾斜 Hadoop Hive 大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇numpy学的还不错？来试试这20题！

下一篇数字图像处理中的灰度直方图是是什么？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Hadoop数据倾斜产生的原因是什么？如何进行处理？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载