shuffle在Spark及Hadoop中的作用大吗？-CDA数据分析师官网

shuffle在Spark及Hadoop中的作用大吗？

2020-05-13

shuffle是一个能产生奇迹的地方，不管是在 Spark 还是 Hadoop 中，它们的作用都是至关重要的。

在Spark中，一般在执行reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作时，会发生shuffle。

关于 Shuffle 的原理，这里不再讲述，看看有关Spark或Hadoop相关的论文或者文章理解一下就 ok。这里主要针对，在 Shuffle如何产生了数据倾斜。

Hadoop 和 Spark 在 Shuffle 过程中产生数据倾斜的原理基本类似。如下图。

大部分数据倾斜的原理就类似于下图，很明了，因为数据分布不均匀，导致大量的数据分配到了一个节点。

千亿数据优化，如何绕过<wordsbank_match class='wbmatch' location='/map/shujuqingxie/' style='cursor:pointer;'><a href='/map/shujuqingxie/' style='color:#000;font-size:inherit;'>数据倾斜</a></wordsbank_match>这头拦路虎？

shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的。

数据倾斜 Hadoop shuffle

数据分析咨询请扫描二维码

上一篇NameNode和Datanode分别是什么？

下一篇Apache Flink是什么？

shuffle在Spark及Hadoop中的作用大吗？

考试指南

报考指南

热门栏目

最新资讯

政府、国央企、科研单位——中国航信-面向测试度量 ...

CDA内训丨深圳迈瑞生物医疗数据分析统计思维培训 ...

CDA数据分析师应合肥阳光新能源科技有限公司邀约开 ...

CDA走进海尔大学

苏州中行&CDA数据分析师开展数据分析师培训 ...

中国银行江苏分行-大数据应用培训

浙江农信数据建模及案例应用培训

华夏银行信用卡中心-机器学习培训

字节跳动-CDA案例实操及行业分析

长沙银行-Python集训营

数据分析在业务中的三大应用场景

AI提示词的使用方法详解及示例

CDA立足未来职场，拓展前沿视野

CDA 塑造未来职涯：构筑未来职业发展的数字基石 ...

随机森林（Random Forest）算法的优点和缺点都有哪 ...

方差分析的基本思想和原理是什么？

发现了一个好用到爆的数据分析利器

自从搞懂了回调函数，我对Python的理解上了一个台阶 ...

2020在学硕士达300万，失去学历光环的新生代何去何 ...

缓解就业焦虑的利器，证书真的越多越有保障吗？ ...