2020-02-20
阅读量:
866
reduceBykey与groupByKey的区别
reduceByKey:reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算
groupByKey: groupByKey会对每一个RDD中的value值进行操作形成一个序列,此操作发生在reduce端,从而会将所有的数据通过网络进行传输,造成不必要的浪费
所以建议在进行大量数据的reduce操作时使用reduceByKey






评论(0)


暂无数据
推荐帖子
0条评论
1条评论
0条评论