登录
首页精彩阅读shuffle在Spark及Hadoop中的作用大吗?
shuffle在Spark及Hadoop中的作用大吗?
2020-05-13
收藏

shuffle是一个能产生奇迹的地方,不管是在 Spark 还是 Hadoop 中,它们的作用都是至关重要的。


在Spark中,一般在执行reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作时,会发生shuffle


关于 Shuffle 的原理,这里不再讲述,看看有关Spark或Hadoop相关的论文或者文章理解一下就 ok。这里主要针对,在 Shuffle如何产生了数据倾斜


Hadoop 和 Spark 在 Shuffle 过程中产生数据倾斜的原理基本类似。如下图。

大部分数据倾斜的原理就类似于下图,很明了,因为数据分布不均匀,导致大量的数据分配到了一个节点。


千亿数据优化,如何绕过<wordsbank_match class='wbmatch' location='/map/shujuqingxie/' style='cursor:pointer;'><a href='/map/shujuqingxie/' style='color:#000;font-size:inherit;'>数据倾斜</a></wordsbank_match>这头拦路虎?



shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task节点上完成的。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询